Det er nemt at glide giftigt sprog forbi Alphabets giftig-kommentardetektor

I torsdags udgav Alphabet en maskinlæringsbaseret tjeneste, kaldet Perspective, beregnet til at identificere giftige kommentarer på websteder. Det er fra Jigsaw, en enhed, der arbejder med teknologier for at gøre internettet til et mere sikkert og civilt sted. Men da jeg legede med Perspective, var resultaterne uberegnelige.

Perspektiv vurderer kommentarer på en skala fra 1 til 100 for toksicitet, defineret som en uhøflig, respektløs eller urimelig kommentar, der sandsynligvis vil få dig til at forlade en diskussion. Skrud med dig, Trump-tilhængere vurderes til at være meget giftige, mens jeg ærlig talt støtter, at begge ikke er f.eks. Men Perspective har problemer med at opdage følelsen bag en kommentar - et problem, som jeg forudsagde ville plage Jigsaw, da jeg undersøgte dets ambitioner i december (se Hvis kun AI kunne redde os fra os selv).

Trump sucks scorede kolossale 96 procent, men alligevel scorede det nynazistiske kodeord 14/88 kun 5 procent. Få muslimer er en terrortrussel var 79 procent giftig, mens racekrig nu scorede 24 procent. Hitler var en antisemit scorede 70 procent, men Hitler var ikke en antisemit scorede kun 53%, og Holocaust aldrig skete scorede kun 21%. Og mens gas the joos scorede 29 procent, omformulerede det til Please gas the joos. Tak skal du have. sænkede scoren til blot 7 procent. (Jøder er mennesker, men scorer 72 procent. Jøder er ikke mennesker? 64 procent.)



Ifølge Jigsaw blev Perspective trænet til at opdage toksicitet ved hjælp af hundredtusindvis af kommentarer rangeret af menneskelige anmeldere. Resultatet ser ud til at være et system, der er følsomt over for bestemte ord og vendinger - men ikke over for betydninger.

Ordet voldtægt, for eksempel, scorer 77 procent alene - måske forklarer det, hvorfor voldtægt er en forfærdelig forbrydelse, scorer 81 procent. (Et lignende mønster ses med bandeord: Jeg elsker det her scorer 94 procent.)

På samme måde forårsager negationer og andre nuancer af sproget paradoksale resultater. Tilføjelse af en ikke at skabe Få muslimer er ikke en terrortrussel sænker toksiciteten fra 79 procent til 60 procent, fordi ikke en terrortrussel virker mere uskadelig for Perspektiv, selvom den tilsigtede betydning bliver mere giftig.

Som jeg bemærkede i mit tidligere stykke om Jigsaw, tillader den nuværende tilstand af maskinlæring ikke software til at forstå hensigten og konteksten af ​​kommentarer. Ved at udføre mønstermatchning på overfladeniveau kan Conversation AI muligvis filtrere stilistisk - men ikke semantisk .

Det gør ikke teknologien ubrugelig. Et system som Perspective kunne fremskynde moderatorernes arbejde ved at markere ekstreme tilfælde. Det giver mening, at New York Times samarbejder med Jigsaw for at give sine moderatorer hjælp til at politistyre kommentarer til artikler. Det New York Times har dog ikke et misbrugsproblem; den søger at identificere kommentarer af høj kvalitet, hvor stilistisk matchning sandsynligvis vil være mere effektiv. Når det kommer til forsætligt misbrug, vil Jigsaws software ikke være i stand til at erstatte menneskelig dømmekraft i tvetydige sager.

Vi kan sige, at trolde er dumme (toksicitetsscore 96 procent), men sproget for toksicitet og chikane er ofte rigt på måder, som maskinlæringssystemer ikke kan håndtere. Kommentaren Du bør gøres til en lampe, en hentydning til påstande om, at hud fra koncentrationslejrofre blev brugt til lampeskærme, er blevet kastet efter en række journalister og andre offentlige personer i de seneste måneder. Den scorer kun 4 procent på Perspektiv. Men det er bedst ikke at svare med at sige, at du er nazist, for det er 87 procent.

skjule