Hvor lang tid før AI-systemer bliver hacket på kreative nye måder?

De nyeste kunstig intelligens-teknikker bliver taget i brug af virksomheder i et rasende tempo. Inden længe begynder hackere måske også at kigge nærmere, og de kan forårsage alle mulige problemer ved at narre disse systemer med illusoriske data.

På en nylig AI-konference i Barcelona, ​​Spanien, sagde Ian Goodfellow, en forsker ved OpenAI, som har udført banebrydende arbejde med at bedrage maskinlæringssystemer, at det er nemt at angribe systemerne. Næsten alt dårligt, du kan finde på at gøre til en maskinlæringsmodel, kan gøres lige nu, sagde han. Og at forsvare det er virkelig, virkelig svært.

I de sidste par år har forskere demonstreret forskellige måder, hvorpå maskinlæringsprogrammer kunne manipuleres ved at udnytte deres tilbøjelighed til at spotte mønstre i data. De er sårbare, dels fordi de mangler egentlig intelligens. For eksempel er det muligt at bruge et billboard til at narre visionsystemerne på selvkørende biler til at se ting, der ikke er der. Uhørlige signaler kan narre stemmestyrede assistenter til at udføre uønskede handlinger, såsom at besøge et websted og downloade et stykke malware.



Goodfellow og andre udvikler modforanstaltninger. Det er muligt at træne et maskinlæringssystem til at genkende og derefter ignorere vildledende eksempler. Men det er svært at beskytte sig mod alle mulige overgreb.

At narre maskinlæringssystemer kan blive mere end en akademisk øvelse. Dette er meget reelt, siger Patrick McDaniel, en professor ved Pennsylvania State University, som har udforsket problemet. Maskinlæringssystemer driver alle slags funktioner, der kunne tjene penge på af modstandere, og derfor vil organiserede og sofistikerede angribere omfavne disse angreb.

McDaniel påpeger, at hackere har overlistet maskinlæringssystemer i årevis. Spammere har f.eks. fodret læringsalgoritmer med falske e-mails for at gøre det muligt for spammeddelelser at passere igennem senere. Han siger, at det ikke kan vare længe, ​​før mere sofistikerede angreb dukker op.

De første angreb vil komme meget snart mod online klassifikationssystemer, siger McDaniel. Dette kunne omfatte moderne spamfiltre, systemer designet til at opdage ulovligt eller ophavsretligt beskyttet materiale og avancerede maskinlæringsbaserede computersikkerhedssystemer.

Et nyt papir tyder på, at problemet kan være mere udbredt end hidtil kendt. Det viser, at visse bedragerier kan genbruges mod forskellige maskinlæringssystemer, eller endda mod et stort sort boks-system, som en angriber ikke har forudgående viden om.

Fejl, der lurer i disse populære maskinlæringsværktøjer, kunne give en anden måde at målrette mod dem. Nye maskinlæringsværktøjer udvikler sig i et hurtigt tempo og udgives ofte gratis online, før de anvendes i aktive tjenester såsom billedgenkendelse eller analyseværktøjer til naturligt sprog.

Ved den samme konference i Spanien fremhævede Octavian Suciu, en ph.d.-studerende ved University of Maryland, en række af sådanne sårbarheder i nogle populære værktøjer. Suciu analyserede kildekoden til disse programmer, og han fandt ud af, at den kunne manipuleres. Han fandt problemer med den måde, nogle værktøjer gemmer information på i hukommelsen, hvilket betyder, at indføring af et meget stort stykke data kunne overskrive en del af programmet og ændre dets adfærd.

Suciu spekulerer i, at tilgangen kunne give en praktisk måde at manipulere, for eksempel, et værktøj, der tilbyder aktieforudsigelser, som derefter kan bruges til at shorte markedet. Hvis [en model] fortæller dig, at aktien vil stige, kan du ændre forudsigelsen til at sige, at den ville gå ned, siger han.

skjule