Maskinlæringsalgoritme kan vise, om statshemmeligheder er korrekt klassificeret

Det amerikanske udenrigsministerium genererer omkring to milliarder e-mails hvert år. En betydelig del af disse indeholder følsomme eller hemmelige oplysninger og skal derfor klassificeres, en proces, der er tidskrævende og omkostningsfuld. Alene i 2015 brugte den 16 milliarder dollars på at beskytte klassificerede oplysninger.

Men pålideligheden af ​​denne klassificeringsproces er uklar. Ingen ved, om reglerne for klassificering af oplysninger anvendes konsekvent og pålideligt. Der er faktisk betydelig uenighed om, hvad der overhovedet er oplysninger, der bør klassificeres.

Hvad mere er, er det let at forestille sig, at menneskelige fejl spiller en betydelig rolle i fejlklassificeringen af ​​officielle hemmeligheder. Men ingen ved, hvor betydelige disse fejl kan være.



I dag ændrer det sig takket være arbejdet fra Renato Rocha Souza ved den brasilianske tænketank Fundação Getulio Vargas i Rio De Janeiro og kolleger ved Columbia University i New York. Disse fyre har brugt en maskinlæringsalgoritme til at studere over en million afklassificerede kabler fra udenrigsministeriet fra 1970'erne.

Deres arbejde giver et hidtil uset indblik i karakteren af ​​officielle hemmeligheder, hvordan mennesker anvender reglerne, og hvor ofte fejl kryber ind i processen for at afsløre følsomme oplysninger eller skjule ellers uskadelige detaljer. Algoritmerne afslører også mistænkelige mønstre i den måde, kabler forsvinder på.

Holdet begyndte med et korpus på en million kabler, som de downloadede fra det amerikanske nationalarkiv i form af XML-filer. Hvert kabel er en tekstbesked, der udveksles mellem udenrigsministeriet og en diplomatisk mission i et fremmed land, såsom en ambassade eller et konsulat.

Kablerne er mærket som hemmelige, fortrolige, begrænset officiel brug eller som uklassificerede. Hemmelige oplysninger defineres som havende potentiale til at skade den nationale sikkerhed alvorligt, fortrolige oplysninger defineres som havende potentiale til at forårsage skade, men ikke alvorlig skade. Kategorien med begrænset officiel brug var udefineret i 1970'erne og er selv i dag stadig kontroversiel.

Kablerne indeholder også anden information. Hver besked har en dato, en afsender og modtager, et emne og selvfølgelig beskedteksten.

Souza og co brugte en række forskellige maskinlæringstilgange til at bestemme, hvordan disse faktorer korrelerer med klassificeringsetiketten. Og efter at have opdaget denne sammenhæng, testede de derefter algoritmen for at se, hvor godt den kunne forudsige, om et givet kabel var klassificeret eller ej.

Resultaterne giver interessant læsning. Souza og co siger, at selve beskeden er den bedste indikator for, om et kabel er klassificeret. Af alle funktionerne var den relative hyppighed af forskellige ord i kroppen den mest nyttige til at identificere følsomme oplysninger, siger de. Afsender- og modtagerdata er også en god indikator for følsomhedsniveauet, men kan få algoritmen til at klassificere mange kabler, der ikke blev klassificeret som dem, der var. Med andre ord fører dette til en høj andel af falske positiver.

Når maskinlæringsalgoritmen kombinerer de forskellige slags metadata i sine beslutninger, kan den se omkring 90 procent af de kabler, der er klassificeret, med en falsk positiv rate på kun 11 procent. Og Souza og co siger, at det burde være muligt at gøre det bedre, hvis kabler, der stadig er klassificeret, blev inkluderet.

Falske positive og falske negative er i sig selv interessante. Disse er kabler, som maskinen forudsagde ville blive klassificeret, men ikke var og omvendt. I mange tilfælde afslørede maskinen kabler, der var blevet fejlklassificeret af mennesker. Et eksempel er et kabel om den japanske regerings følsomhed over for amerikanske inspektioner af dets nukleare anlæg. Dette kabel var uklassificeret, men burde have været det, da teksten afslører, at det oprindeligt var fortroligt, siger forskerne.

En begrænsning af dataene er, at mange kabler er gået tabt, tilsyneladende på grund af problemer med at konvertere dem til et elektronisk format. Det måske mest interessante aspekt af dette arbejde er, at det antyder, at disse beskeder kan være forsvundet af andre årsager.

Et fingerpeg er den hastighed, hvormed beskederne forsvandt, som er forskellige for klassificerede og uklassificerede kabler. Elektroniske meddelelser, der er klassificeret som 'hemmelige', var mere end tre gange større tilbøjelige til at forsvinde sammenlignet med meddelelser om uklassificeret og begrænset officiel brug, siger Souza og co.

Desuden overlever de metadata, der er knyttet til kablerne, ofte, når den elektroniske besked er gået tabt. Hvordan dette kunne ske, er et puslespil.

Desuden, hvis beskederne gik tabt, når de blev konverteret fra et format til et andet, ville de højst sandsynligt forsvinde, når udenrigsministeriet satte sit nye datalagringssystem op. Det er bemærkelsesværdigt, at de fleste af disse [manglende] kabler ikke dateres til, hvornår udenrigsministeriet først satte systemet op, når man kunne forvente, at det ville have været fejlfindende måder at pålideligt overføre data mellem forskellige hardware- og softwareplatforme, siger teamet.

Arbejdet har vigtige implikationer for balancen mellem gennemsigtighed og hemmeligholdelse. Maskiner kan tydeligvis hjælpe med at overvåge praksis med klassificering af data. Men de kan i gennemsnit ikke gøre dette bedre end de databaser, de lærer af. Hvis disse indeholder fejl, som udenrigsministeriets kabler tydeligvis gør, vil maskinerne uundgåeligt blive hæmmet.

Men et interessant spørgsmål er, om de data, som denne form for maskinlæring afslører, i sig selv bør klassificeres, hvis de afslører adfærdsmønstre, der kan være skadelige for den nationale interesse. For eksempel kan den hastighed, hvormed fortrolig information fejlagtigt mærkes som uklassificeret, være nyttig for en fremmed magt, der forsøger at indsamle klassificerede oplysninger fra uklassificerede kabler.

Der er klart mere arbejde at gøre. Souza og co siger, at på trods af udenrigsministeriets enorme udgifter til at beskytte klassificerede oplysninger, er der kun lidt eller ingen offentliggjort forskning om konsistensen af ​​klassificering. Der er heller ikke meget forståelse for, hvor meget denne form for maskinlæring kan afsløre.

Måske foregår alt dette arbejde bag lukkede døre. På den anden side måske ikke.

Ref: arxiv.org/abs/1611.00356 : Brug af kunstig intelligens til at identificere statshemmeligheder

skjule