Så skyddar du din AI-modell mot attacker
Vilka typer av attacker som påverkar den personliga integriteten kan då riktas mot en AI-modell? Vi väljer att här fokusera på några exempel på attacktyper för att illustrera detta.
AI-modeller som bygger på maskininlärning kan utsättas för attacker som riskerar att avslöja personuppgifter som ingår i träningsdata. En metod som benämns ”Model Inversion Attacks”, är när angriparen redan har viss information om modellens träningsdata och kan genom att testa modellen avslöja ytterligare personlig information. En annan metod är ”Membership Inference Attacks” som gör det möjligt att avgöra om en specifik individ ingick i träningsmaterialet, även om inga direkta personuppgifter avslöjas. Ett exempel är att en AI-modell tränad på sjukvårdsdata kan ge ifrån sig information som avslöjar att en viss patient fanns med, bara genom hur säker modellen är i sin förutsägelse. Modeller som använder sannolikhetspoäng är extra sårbara för den här typen av metod, då själva avslöjandet om att personen ingår i modellens träningsdata skulle kunna utgöra en personuppgiftsincident. Risken blir särskilt allvarlig om modellen tränats på uppgifter som utgör så kallade känsliga personuppgifter. Detta kan vara en sådan sårbarhet att vara särskilt uppmärksam på när man finjusterar AI-modeller med interna eller verksamhetsspecifika data.
En annan typ av attack är så kallade ”white-box attacker”. Här har angriparen full tillgång till modellen och kan undersöka kod och parametrar men har inte tillgång eller information om modellens träningsdata. En sådan situation kan till exempel uppstå när en leverantör ger tredje part en hel modell att köra lokalt. En annan form av attack mot modellen är när angriparen endast haft möjlighet att mata in data och observera modellens utdata, exempelvis via API (”Application Programming Interface”) så kallande ”black box-attacker”. Beroende på tillgången till modellen eller dess funktioner kan båda dessa typer av attacker utföras av kunder, användare eller obehöriga.
Vissa modeller innehåller i sig avsiktligt rådata från träningsdata som använts, i de fallen lagras vissa träningsdata direkt i modellen. Om denna data inkluderar personuppgifter så medför en åtkomst till modellen i sig en tillgång till personuppgifter. Att lagra och använda sådana modeller räknas i princip som behandling av personuppgifter och omfattas därför av dataskyddslagstiftning. Även om man ”bara” är en kund som nyttjar modellen så behandlar man personuppgifter.
Här följer några metoder för att värdera och reducera sårbarheter vid attacker mot modeller av denna typ, men vi vill återigen påminna om att varje situation är unik och vi kan inte säga generellt att de nedan beskrivna åtgärderna är tillräckliga.
- Bedöm modellernas sårbarhet, kan de innehålla eller avslöja personuppgifter?
- Värdera träningsdata, innehåller den identifierbara uppgifter? Läs gärna EDPB:s riktlinjer om pseudonymisering.
- Håll dig uppdaterad kring både attackmetoder och skyddstekniker.
- Värdera modellens förmåga att minnas sin träningsdata, till exempel nivån av överanpassning. Om modellen till hög grad har förmåga att minnas sin träningsdata, ökar också riskerna.
- Skydda åtkomst till systemet, exempelvis genom övervakning för att upptäcka misstänkta anrop eller missbruk.
Utöver risken för att personuppgifter oavsiktligt röjs, finns nya AI-relaterade säkerhetshot såsom exempelvis att data medvetet manipulerats för att bli felklassificerad av en AI-modell. Det kan vara avancerat manipulerade bilder eller fysiska förändringar med något så enkelt som klistermärken på ett föremål. Den här typen av attacker är oroande ur ett bredare säkerhetsperspektiv och kan även utgöra en dataskyddsrisk om datamängden inkluderar personuppgifter. Exempelvis genom en attack mot ett ansiktsigenkänningssystem där ett förvanskat ansiktsfoto skulle kunna få AI:n att identifiera någon som en annan person, även om en människa fortfarande ser vem det är.
Det här menar vi med AI
Ordförklaringar
Tack för att du har läst del 2 av vår bloggserie om AI-säkerhet. Nästa vecka kommer del 3: Samla inte in mer data än nödvändigt! Del 1 handlade om ”Nya” säkerhetsrisker med AI.
Christelle Bourquin, chef för enheten för säkerhetstillsyn på IMY