Samling af 13.500 Nastygrammer kunne fremme krigen mod trolde

En visualisering af indlæg på Wikipedias diskussionssider i januar viser forekomsten af ​​personangreb, fremhævet med rødt.

Kvindehad, racisme, bandeord – en samling af mere end 13.500 online personlige angreb har det hele.

Nastygrammerne kom fra diskussionssiderne på Wikipedia. Samlingen sammen med over 100.000 mere godartede indlæg, er blevet frigivet af forskere fra Alphabet og Wikimedia Foundation, nonprofitorganisationen bag Wikipedia. De siger, at dataene vil øge bestræbelserne på at træne software til at forstå og kontrollere online chikane.



Vores mål er at se, hvordan vi kan hjælpe folk med at diskutere de mest kontroversielle og vigtige emner på en produktiv måde overalt på internettet, siger Lucas Dixon, chefforsker ved Stiksav , en gruppe inden for Alphabet, der bygger teknologi til at tjene sager som ytringsfrihed og bekæmpelse af korruption (se 'Hvis kun AI kunne redde os fra os selv').

Jigsaw og Wikimedia-forskere brugte en crowdsourcing-tjeneste til at få folk til at finkæmme mere end 115.000 meddelelser på Wikipedia-diskussionssider for at tjekke, om der var et personligt angreb som defineret af fællesskabets regler . Samarbejdspartnerne har allerede brugt dataene til at træne maskinlæringsalgoritmer, som konkurrerer med crowdsourcede arbejdere om at opdage personlige angreb. Da de kørte den gennem hele samlingen af ​​63 millioner debatindlæg lavet af Wikipedia-redaktører, fandt de ud af, at kun omkring et ud af 10 angreb havde resulteret i handling fra moderatorer.

Wikimedia Foundation lavet reducere chikane blandt Wikipedia-redaktører en prioritet sidste år. Politikken tilføjer til eksisterende bestræbelser på at blødgøre den stikkende og bureaukratiske atmosfære i Wikipedia-fællesskabet, hvilket har vist sig at afskrække nye bidragydere fra at deltage. Begge problemer kunne hjælpe med at forklare, hvorfor det har set redaktørtal falde og kæmpet for at udvide deltagelsen ud over en kernemandlig, vestlig demografisk (se Wikipedias tilbagegang).

Jigsaw og Wikimedia Foundation er ikke de første til at studere onlinemisbrug, og de er heller ikke de første, der sigter mod at designe software, der kan opdage og bekæmpe det. Men samlinger af kommentarer mærket til at markere chikanerende og ikke-chikanerende indlæg – som er nødvendige for at træne maskinlæringssoftware – har været sparsomme, siger Ellery Wulczyn , en datavidenskabsforsker med Wikimedia Foundation.

Han vurderer, at samlingen af ​​personangreb og kommentarer fra Wikipedia er mellem 10 og 100 gange større end de tidligere tilgængelige. Maskinlæringsalgoritmer har brug for et stort antal mærkede eksempler for at lære, hvordan man nøjagtigt filtrerer data.

Hvorvidt algoritmer, der er trænet til at opdage misbrug, kan implementeres som effektive moderatorer, er dog stadig uklart. Software er langt fra at forstå alle sprogets nuancer. Nogle mennesker kan være motiverede til at indstille deres voldelige sprog for at undgå opdagelse, siger Wikimedias Wulczyn. Hvis vi skulle bygge indgreb, som mennesker har et modstridende forhold til, ved vi ikke, hvad der ville ske, siger han.

skjule