Sintetičke mreže mogu povećati dostupnost nekih podataka dok istovremeno štite privatnu ili institucionalnu privatnost, tvrdi statističar iz Penn State.
"Moj glavni interes je u razvijanju metodologije koja bi omogućila šire dijeljenje povjerljivih podataka na način koji može pomoći u znanstvenim otkrićima", rekla je Aleksandra Slavković, profesorica statistike i prodekan za postdiplomsko obrazovanje, Eberly College of Science, Penn State. "Biti u stanju podijeliti povjerljive podatke s minimalnim mjerljivim rizikom za otkrivanje osjetljivih informacija i još uvijek osigurati statističku točnost i integritet, je cilj."
Slavković je pronašao rešenja za ovaj problem privatnosti podataka putem interdisciplinarne saradnje, posebno sa kompjuterskim i društvenim naučnicima. Njeno istraživanje se fokusira na različite podatke, uključujući i mrežne podatke koji prikupljaju informacije o odnosu između entiteta kao što su pojedinci ili institucije. Ona je izvijestila o svojim pristupima pružanju sintetičkih mreža koje zadovoljavaju ideju o različitoj privatnosti danas (16. februar) tokom godišnjeg sastanka Američkog udruženja za napredak nauke u Washingtonu, 2019. godine.
Diferencirana privatnost pruža matematički dokazivu garanciju o stepenu gubitka privatnosti za pojedince.
Naučnici žele pristup podacima koje su prikupili drugi za svoja istraživanja, ali takav pristup može ugroziti privatnost, čak i nakon uklanjanja takozvanih osobnih podataka.
"Veliki broj pomoćnih podataka je glavni krivac", rekao je Slavković. "Sa metodološkim i tehnološkim napretkom u prikupljanju podataka i povezivanju podataka, lakšem pristupu različitim izvorima podataka koji se mogu povezati sa skupom podataka i zahtjevima agencija za finansiranje za razmjenu podataka, rizici za privatnost podataka se povećavaju. rešenja za upravljanje gubitkom privatnosti su ključna za omogućavanje dobrog naučnog otkrića. "
Na primjer, javno dostupne informacije iz ispitivanja lijeka na HIV lijeku ukazuju na to tko je bio u grupi za liječenje i tko je bio u kontrolnoj grupi. Grupa za tretman bi sadržavala samo osobe s dijagnozom HIV-a i iako su vlasnici podataka zadržali osobne podatke iz tog skupa podataka, neke identifikacione informacije bi ostale. Budući da je toliko informacija danas dostupno na internetu u društvenim medijima iu drugim skupovima podataka, moguće je povezati tačke i identificirati ljude, potencijalno otkrivajući njihov HIV status.
"Tehnike povezivanja dva skupa podataka, recimo evidencija birača i podaci o zdravstvenom osiguranju, znatno su poboljšane", rekao je Slavković. "U jednom od najranijih nalaza, Latanya Sweeny (sada na Harvardu) je pokazala da povezivanjem ove vrste podataka možete identificirati 87 posto ljudi iz popisa SAD iz 1990. na osnovu datuma rođenja, roda i 5-znamenkasti Nedavno su istraživači koristili tvitove i pridružene Twitter metapodatke da bi pokazali da mogu da identifikuju korisnike sa tačnošću od 96,7 procenata.
Slavković napominje da nisu samo ljudi ili institucije čiji su podaci sadržani u bazama podataka, već i da ljudi izvan baze podataka mogu patiti i od narušavanja privatnosti, direktno ili udruživanjem. Veze između informacija u skupu podataka i informacija o društvenim medijima mogu dovesti do ozbiljne povrede privatnosti - nešto poput HIV statusa ili seksualne orijentacije može imati ozbiljne posljedice ako se otkriju.
Iako je privatnost važna, prikupljeni skupovi podataka čine bitan izvor informacija za istraživače. Trenutno, u nekim slučajevima kada su podaci izuzetno osjetljivi, istraživači moraju fizički otići u spremišta podataka kako bi proveli istraživanje, čineći istraživanje teže i skuplje.
Slavković je zainteresovan za podatke o mreži. Informacije koje pokazuju povezanost ljudi ili institucija - čvorova - i veza između čvorova. Njen pristup je kreiranje neznatno izmijenjenih, zrcaljenih mrežnih skupova podataka s nekoliko pomaknutih čvorova, pomicanjem veza ili promjenom rubova.
"Cilj je stvoriti nove mreže koje zadovoljavaju rigorozne diferencijalne zahtjeve privatnosti i istovremeno uhvatiti većinu statističkih značajki iz izvorne mreže", rekao je Slavković.
Ovi sintetički skupovi podataka mogu biti dovoljni za neke istraživače da zadovolje svoje istraživačke potrebe. Za druge, dovoljno je testirati njihove pristupe i hipoteze prije nego što moraju otići na mjesto za pohranu podataka. Istraživači su mogli testirati kod, napraviti istraživačko istraživanje i možda osnovnu analizu dok čekaju dozvolu za korištenje izvornih podataka na svom mjestu spremišta.
"Ne možemo zadovoljiti zahtjeve za sve statističke analize istom vrstom izmijenjenih podataka", rekao je Slavković. "Nekim ljudima će biti potrebni originalni podaci, ali drugi mogu ići daleko od sintetičkih podataka kao što su sintetičke mreže."
