Om en stor AI -modell tränas med känslig användardata eller upphovsrättsskyddat material finns det en risk att det senare oavsiktligt ”reproducerar” innehållet. Detta kan leda till både integritet och juridiska frågor. För att motverka detta använder denna metod diskriminerande integritet. Här sätts kontrollerat brus i rörelseprocessen så att modellen inte kommer ihåg data.
Google -forskare har nu utvecklat en ny skalningslag för personliga språkmodeller där brusnivåer, beräkningskraft (FLOPS) och datasatsbalans är mycket viktigt. Mer buller ger starkare integritetsskydd, men resultaten äventyras – såvida det inte vägs på mer data eller högre beräkningsbudgetar.
Resultaten av denna studie är Vault Gemma, en ny språkmodell baserad på Google Gemma 2. Denna modell har cirka 1 miljard parametrar och körs längs en liknande icke-privat modell trots integritetsskydd. Google beskriver det som ett experiment, men hoppas att det kan bana väg för en mer effektiv och mer privat AI -modell, särskilt i ett litet, professionellt sammanhang.
