En säkrare AI-resa? Del 3: Samla inte in mer data än nödvändigt!
Principen om uppgiftsminimering enligt GDPR kräver att endast den mängd personuppgifter som är nödvändig för syftet får behandlas. Det kan verka som att AI, som ofta kräver stora mängder data, strider mot denna princip. Men med uppgiftsminimering avses inte att all persondata måste undvikas, utan att man enbart får använda det som verkligen är nödvändigt för situationen. Tyvärr är det inte ovanligt att man samlar in mer data än nödvändigt, med det går att undvika. Det finns flera metoder som möjliggör att AI-system endast behandlar nödvändiga data, i synnerhet vid så kallad övervakad träning, vilket är en vanlig form av AI-träning idag. Tänk dock på att ingen av dessa metoder eliminerar alla risker. Det är därför viktigt att redan vid designfasen tänka på uppgiftsminimering. Det gäller även vid inköp eller användning av AI-system från tredje part.
Användandet av dessa metoder kräver ibland, men inte alltid, att man gör vissa kompromisser gentemot andra behov, till exempel noggrannhet i utfallet.
Övervakade algoritmer används för att skapa modeller som kan förutsäga eller klassificera framtida situationer baserat på tidigare exempel. Träningsdata innehåller dels en ”målvariabel”, vilket är det resultat som modellen försöker förutsäga, och dels flera ”prediktorer”, det vill säga inmatade variabler som modellen använder för att göra sin bedömning. Ett exempel är ett banksystem som bedömer kreditrisker med hjälp av uppgifter som ålder, inkomst och yrke, där målvariabeln är ”om lånet har betalats tillbaka eller inte”. När modellen har tränats kan den ta emot nya data och göra ”förutsägelser” om ”nya” individer, baserat på liknande mönster från den ursprungliga data. Om modellen används för att göra förutsägelser om individer, är det mycket troligt att personuppgifter används.
Vid utveckling av AI-system utgår man ofta från att all data kommer att samlas och lagras i sin fullständiga ursprungliga form i flera delar under systemets livscykel. Men om ens data innehåller personuppgifter behöver man fundera om det verkligen är nödvändigt att behandla dem. Om samma syfte kan uppnås med mindre mängder eller färre typer av persondata, så kräver principen om uppgiftsminimering att du gör det. Det finns flera metoder för att minska mängden personuppgifter du behöver behandla.
När AI-modeller tränas tillämpar man vanligen en inlärningsalgoritm på en datamängd med visa attribut (”features”) för varje individ som sen används för att generera förutsägelser. Men alla attribut i datamängden är inte nödvändigtvis relevanta, exempelvis kan vissa demografiska uppgifter vara onödiga för att bedöma kreditrisk. Därför måste man utvärdera vilka attribut, och därmed vilken data, som verkligen behövs och då endast behandla den.
Hur kan man balansera mellan uppgiftsminimering och behoven av till exempel statistisk noggrannhet? Ju mer data ett AI-system tränas på desto mer statistiskt noggrant tenderar det att bli. Det innebär att modellen bättre kan identifiera statistiskt användbara samband. Men ju fler datapunkter man samlar om varje individ och ju fler personer som ingår, desto större blir riskerna för integriteten. Uppgiftsminimering innebär att du inte får använda mer data än vad som är nödvändigt. Värt att notera är att med för stora mängder data når modellen inte nödvändigtvis en bättre prestanda utan man når till slut en brytpunkt när modellen presterar sämre och blir instabil. Kostnaden för lagring, träning och ”förutsägelser” (”inferens”) ökar medan kvaliteten på resultaten sjunker. Brytpunkten, eller ”inflection point” som den kallas, bör därmed inte passeras då modellen inte blir noggrannare eller bättre efter den brytpunkten.
Det finns som nämnts flera metoder för att minska mängden personuppgifter som behandlas under träningsfasen. Metoderna är under utveckling, vilket gör att de inte alltid är mogna att använda i alla sammanhang.
Vi kommer nedan i korthet nämna tre metoder; störning/tillägg av brus (”perturbation”), syntetiska data och federerad inlärning.
Vissa av dessa metoder innebär att man modifierar träningsdata för att minska risken för att data ska kunna kopplas till specifika individer, samtidigt som datamängden behåller sin användbarhet för att träna modellen med god prestanda. Man kan visserligen tillämpa dessa metoder efter att man samlat in träningsdata, men det är oftast bättre att integrera dem innan insamlingen av personuppgifter sker, på så sätt minskar man även riskerna med stora datamängder. Det är teoretiskt möjligt att matematiskt mäta hur väl dessa tekniker balanserar individens integritet med modellens användbarhet, till exempel med hjälp av ”differential privacy”, men det finns fortsatt utmaningar med dessa metoder då de fortfarande vidareutvecklas.
Vid ”störning” (perturbation) ändrar man värden i datamängden slumpmässigt för att ”störa” ursprunglig individdata utan att förstöra de statistiska mönstren. Precisionen på individnivå blir då visserligen lägre men man kan med data från tillräckligt många användare fortfarande se mönster på aggregerad nivå. Ju mer brus som läggs till, desto svårare är det att lära sig från data då det kan leda till att datamängden blir så intetsägande att modellen inte kan leverera önskat utfall.
I vissa fall kan det var lämpligt att träna modeller med syntetiska data, det vill säga data som inte är kopplad till verkliga personer utan som har genererats artificiellt. Eftersom syntetiska data inte är relaterad till identifierbara levande individer, omfattas den inte av dataskyddsregler. Däremot är det ofta nödvändigt att ha viss ”riktig” data för att skapa realistiska parametrar för de syntetiska datamängderna.
Under vissa förhållanden kan man genom att analysera syntetiska data ändå dra slutsatser om den verkliga data som låg till grund för det syntetiska datasetet. Då finns det en risk att man behöver justera den datamängden så mycket att den i praktiken i vissa situationer kanske inte blir användbar för träning.
Federerad inlärning är en teknik där flera aktörer tränar modeller på sin egna data (”lokala modeller”) och sedan delar vissa ”mönster” för att skapa en gemensam mer exakt ”global modell”, utan att de delar sin egna träningsdata. Delning av dessa ”mönster” innebär lägre integritetsrisk än att dela hela datamängden, men kan ändå innebära en risk att avslöja viss personlig information, särskilt om modellen är komplex och antalet deltagande aktörer är få.
För att kunna göra en förutsägelse eller klassificering om en individ behöver AI-modeller vanligtvis hela uppsättningen av ”prediktorvariabler” för den personen. Även här finns det flera tekniker du kan använda för att minska mängden personuppgifter eller hantera de risker som uppstår i denna fas av utvecklingen (”inferensfasen”), till exempel att konvertera data till mindre ”lättlästa” format.
För att möjliggöra klassificering konverteras då rå persondata ofta till ett mer abstrakt format exempelvis till numeriska värden, så kallade ”feature vectors”. Det kan därmed finnas lösningar som medger endast lokal behandling. Om denna behandling av persondata genom konvertering sker lokalt på användarens enhet behöver inte direkt identifierbara personuppgifter skickas vidare till och behandlas av en AI-tjänst på annan plats. Vid hantering och analys på annan plats än lokalt kan man till exempel inom ansiktsigenkänningsteknik konvertera bilder lokalt till så kallade ”faceprints”, det vill säga ansiktets karaktäristik analyseras och omvandlas till en matematisk representation eller kod som kan överföras och jämföras med andra ”ansiktskoder” i den databas som då finns på annan plats. Även om ”faceprints” är svåra att tolka visuellt, är de fortfarande personuppgifter och till och med biometriska data enligt dataskyddslagstiftningen.
Om det inte är möjligt att använda lokala modeller finns andra tekniker som gör det möjligt att skicka förfrågningar till en AI-tjänst och samtidigt upprätthålla integriteten för personuppgifterna och den information som överförs. Detta innebär att man kan få ett svar utan att helt avslöja vad man frågade om, vilket skyddar individens data. Det finns olika former av denna typ av behandling som skyddar informationen på lite olika sätt beroende på behov och förutsättningar exempelvis ”Confidential Computing”, ”Trusted Execution Environment (TEE)” eller ”Private Cloud Compute”. Det finns det anledning för oss att återkomma till vid ett annat tillfälle.
Utvecklingen av datasäkerhet och AI fortsätter, och morgondagen kommer med all sannolikhet innebära både nya utmaningar och möjligheter. Vad utvecklingen inom områden som kvantkryptering, ”homomorfisk kryptering” och ”zero-trust” inom modellsäkerhet ger för möjligheter för dataskyddet får framtiden utvisa.
Det här menar vi med AI
Ordförklaringar
Tack för att du har läst den tredje och avslutande delen i vår bloggserie om AI-säkerhet. Del 1 handlade om ”nya” säkerhetsrisker med AI och del 2 om hur du kan skydda din AI-modell mot attacker.
Christelle Bourquin, chef för enheten för säkerhetstillsyn på IMY
Senaste blogginläggen
-
En säkrare AI-resa? Del 3: Samla inte in mer data än nödvändigt!
24 september 2025 -
En säkrare AI-resa? Del 2: Så skyddar du din AI-modell mot attacker
17 september 2025 -
En säkrare AI-resa? Del 1: ”Nya” säkerhetsrisker med AI
11 september 2025 -
Frågor och svar från webbinarium om den regulatoriska sandlådan och generativ AI
2 juli 2025
Senaste blogginläggen
-
En säkrare AI-resa? Del 3: Samla inte in mer data än nödvändigt!
24 september 2025 -
En säkrare AI-resa? Del 2: Så skyddar du din AI-modell mot attacker
17 september 2025 -
En säkrare AI-resa? Del 1: ”Nya” säkerhetsrisker med AI
11 september 2025 -
Frågor och svar från webbinarium om den regulatoriska sandlådan och generativ AI
2 juli 2025