IMY-bloggen

En säkrare AI-resa? Del 2: Så skyddar du din AI-modell mot attacker

Publicerad: 17 september 2025

Välkommen till del 2 i vår bloggserie i tre delar om AI-säkerhet. Denna del handlar om hur du kan skydda din AI-modell mot attacker. Del 1 handlade om ”nya” säkerhetsrisker med AI och publicerades den 11 september.

Vilka typer av attacker som påverkar den personliga integriteten kan då riktas mot en AI-modell? Vi väljer att här fokusera på några exempel på attacktyper för att illustrera detta.

AI-modeller som bygger på maskininlärning kan utsättas för attacker som riskerar att avslöja personuppgifter som ingår i träningsdata. En metod som benämns ”Model Inversion Attacks”, är när angriparen redan har viss information om modellens träningsdata och kan genom att testa modellen avslöja ytterligare personlig information. En annan metod är ”Membership Inference Attacks” som gör det möjligt att avgöra om en specifik individ ingick i träningsmaterialet, även om inga direkta personuppgifter avslöjas. Ett exempel är att en AI-modell tränad på sjukvårdsdata kan ge ifrån sig information som avslöjar att en viss patient fanns med, bara genom hur säker modellen är i sin förutsägelse. Modeller som använder sannolikhetspoäng är extra sårbara för den här typen av metod, då själva avslöjandet om att personen ingår i modellens träningsdata skulle kunna utgöra en personuppgiftsincident. Risken blir särskilt allvarlig om modellen tränats på uppgifter som utgör så kallade känsliga personuppgifter. Detta kan vara en sådan sårbarhet att vara särskilt uppmärksam på när man finjusterar AI-modeller med interna eller verksamhetsspecifika data.

En annan typ av attack är så kallade ”white-box attacker”. Här har angriparen full tillgång till modellen och kan undersöka kod och parametrar men har inte tillgång eller information om modellens träningsdata. En sådan situation kan till exempel uppstå när en leverantör ger tredje part en hel modell att köra lokalt. En annan form av attack mot modellen är när angriparen endast haft möjlighet att mata in data och observera modellens utdata, exempelvis via API (”Application Programming Interface”) så kallande ”black box-attacker”. Beroende på tillgången till modellen eller dess funktioner kan båda dessa typer av attacker utföras av kunder, användare eller obehöriga.

Vissa modeller innehåller i sig avsiktligt rådata från träningsdata som använts, i de fallen lagras vissa träningsdata direkt i modellen. Om denna data inkluderar personuppgifter så medför en åtkomst till modellen i sig en tillgång till personuppgifter. Att lagra och använda sådana modeller räknas i princip som behandling av personuppgifter och omfattas därför av dataskyddslagstiftning. Även om man ”bara” är en kund som nyttjar modellen så behandlar man personuppgifter.

Här följer några metoder för att värdera och reducera sårbarheter vid attacker mot modeller av denna typ, men vi vill återigen påminna om att varje situation är unik och vi kan inte säga generellt att de nedan beskrivna åtgärderna är tillräckliga.

Bedöm modellernas sårbarhet, kan de innehålla eller avslöja personuppgifter?
Värdera träningsdata, innehåller den identifierbara uppgifter? Läs gärna EDPB:s riktlinjer om pseudonymisering.
Håll dig uppdaterad kring både attackmetoder och skyddstekniker.
Värdera modellens förmåga att minnas sin träningsdata, till exempel nivån av överanpassning. Om modellen till hög grad har förmåga att minnas sin träningsdata, ökar också riskerna.
Skydda åtkomst till systemet, exempelvis genom övervakning för att upptäcka misstänkta anrop eller missbruk.

Utöver risken för att personuppgifter oavsiktligt röjs, finns nya AI-relaterade säkerhetshot såsom exempelvis att data medvetet manipulerats för att bli felklassificerad av en AI-modell. Det kan vara avancerat manipulerade bilder eller fysiska förändringar med något så enkelt som klistermärken på ett föremål. Den här typen av attacker är oroande ur ett bredare säkerhetsperspektiv och kan även utgöra en dataskyddsrisk om datamängden inkluderar personuppgifter. Exempelvis genom en attack mot ett ansiktsigenkänningssystem där ett förvanskat ansiktsfoto skulle kunna få AI:n att identifiera någon som en annan person, även om en människa fortfarande ser vem det är.

Det här menar vi med AI

Ordförklaringar

I denna text använder vi begreppet "AI". En viktig del av AI är "maskininlärning" som innebär att datorer lär sig att hitta mönster och göra förutsägelser med hjälp av stora mängder data. Även om all AI inte bygger på maskininlärning, är det just den tekniken som ligger bakom mycket av dagens AI, till exempel i bildigenkänning, röststyrning, beslutstöd eller vid bedömning av kreditrisk. Vi väljer därför att utgå från den AI som är baserad på maskininlärningstekniken och hur den påverkar dataskyddet. För läsbarhetens skull använder vi dock endast begreppet AI, väl medveten om att all AI inte bygger på maskininlärningstekniken och därmed kan medföra andra utmaningar.

Gå till ordlistsidan

Tack för att du har läst del 2 av vår bloggserie om AI-säkerhet. Nästa vecka kommer del 3: Samla inte in mer data än nödvändigt! Del 1 handlade om ”Nya” säkerhetsrisker med AI.

Christelle Bourquin, chef för enheten för säkerhetstillsyn på IMY

Mer information

Relaterade länkar

Senast uppdaterad: 24 september 2025

Senaste blogginläggen

Se fler blogginlägg

Senaste blogginläggen

Se fler blogginlägg

Senast uppdaterad: 24 september 2025

Vi guidar dig

Ska du utföra ett ärende?

Om IMY

Vi guidar dig

Ska du utföra ett ärende?

Om IMY

Om IMY

Om IMY

Vi guidar dig

Ska du utföra ett ärende?

Vi guidar dig

Ska du utföra ett ärende?

Söktips!

En säkrare AI-resa? Del 2: Så skyddar du din AI-modell mot attacker

Det här menar vi med AI

Mer information

Senaste blogginläggen

Tänk säkert hela året - om generativ AI och personuppgiftsansvar

Var säker på nätet – om kakor och AI i vardagen

En säkrare AI-resa? Del 3: Samla inte in mer data än nödvändigt!