Machine-Learning Algorithm Watches Dance Dance Revolution og skaber derefter sine egne danse

Dance Dance Revolution er et af de klassiske videospil fra det sene 20. århundrede. Et vidnesbyrd om dens succes, nyhed og lang levetid er, at den stadig er populær i dag, næsten 20 år siden lanceringen.

Dette er et dansespil, der består af en skærm og en danseplatform, som spillerne styrer med fødderne. Platformen har fire puder, som spillere skal røre ved til musik i den rækkefølge, der er angivet af et diagram på skærmen. Så spillerne skal danse til musikken på den måde, spillet kræver.

Spillet giver også spillerne mulighed for at designe og distribuere deres egne danse. I årenes løb har folk skabt enorme databaser med danse til et stort udvalg af populære sange.



Det gav Chris Donahue og venner fra University of California, San Diego, en idé. Hvorfor ikke bruge denne enorme database til at træne en dyb-læringsmaskine til at skabe sine egne danse?

I dag viser de, hvordan de har gjort netop det. Deres system - kaldet Dance Dance Convolution - tager de rå lydfiler fra popsange som input og producerer danserutiner som output. Resultatet er en maskine, der kan koreografere musik.

Selve spillet er i princippet ligetil. Mens musikken spiller, rører spilleren ved puderne på danseplatformen i den rækkefølge, der vises på skærmen. Hver pude kan være i en af ​​fire tilstande: tændt, slukket, hold (eller frys) og slip. Fordi de fire pads kan aktiveres eller frigives uafhængigt, er der 256 mulige trinkombinationer på ethvert tidspunkt.

Selvfølgelig bliver dansene gradvist sværere, hvor de fleste sange har danse med fem sværhedsgrader. Sværhedsgraden bestemmes af hastigheden af ​​de rytmiske underafdelinger. Spil på begynderniveau har trin på kvarte og ottende noder, men danse med større sværhedsgrad har trin på 16. node og nogle mønstre, der involverer 12. og 24. noder.

Der er også andre uformelle regler for oprettelse af dansekort. Diagramforfattere stræber efter at undgå mønstre, der ville tvinge en spiller til at se væk fra skærmen, siger Donahue og co. Resultatet er danse med en bred vifte af rige strukturer.

Opgaven med at automatisere oprettelsen af ​​dansediagrammer er på ingen måde enkel. Donahue og co deler det i to dele. Den første er at beslutte, hvornår trin skal placeres, og den anden er at beslutte, hvilke trin der skal vælges. De træner derefter en maskinlæringsalgoritme for at lære hver opgave.

Den første opgave går ud på at identificere et sæt tidsstempler i en sang, hvorpå trin skal placeres. Dette svarer til et velundersøgt problem i musikforskning kaldet startdetektion. Dette indebærer at identificere vigtige øjeblikke i en sang, såsom melodinoder eller trommeslag.

Selvom ikke alle debut i vores data svarer til et Dance Dance Revolution-trin, svarer hvert Dance Dance Revolution-trin til en begyndelse, siger Donahue og co.

Når tidsstemplerne for hvert trin er blevet identificeret, er den anden opgave at vælge et trin, der skal tages på hvert øjeblik.

I alle maskinlæringsopgaver er træningsdatasættet afgørende. Musikforskning har tidligere været hæmmet, fordi ophavsretlige problemer kan forhindre, at sange bliver brugt i forskning (eller i det mindste bliver videregivet sammen med resultaterne).

DDR kommer uden om dette, fordi så mange dansediagrammer er blevet skabt af almindelige brugere. Donahue og co siger, at et online-lager, kaldet Stepmania Online, gemmer over 350 gigabyte af dansediagrammer på mere end 100.000 sange.

Til denne forskning fokuserer holdet på to mindre datasæt bestående af optagelser plus dansediagrammer. Den første indeholder 90 sange koreograferet af en enkelt forfatter, som har produceret hitlister med fem sværhedsgrader for hver sang. Det andet datasæt indeholder 133 sange hver med et enkelt dansediagram.

Teamet øger derefter datasættet ved at skabe et spejlbillede af hvert diagram - for eksempel ved at skifte venstre til højre og op for ned (eller begge). Resultatet er et datasæt på 35 timers musik i form af rå lydfiler med mere end 350.000 trin.

Donahue og co bruger derefter 80 procent af musikken til at træne maskinlæringsalgoritmen til at genkende tidspunkter for trinplacering. De validerer og tester den resulterende model med de resterende 20 procent af dataene. Og de bruger lignende proportioner til at træne en anden algoritme til at bestemme trinvalget. Lignende teknikker er meget brugt i maskinlæring til opgaver, såsom behandling af naturligt sprog.

Resultaterne er imponerende. Vores eksperimenter fastslår muligheden for at bruge maskinlæring til automatisk at generere højkvalitets DDR-diagrammer fra rå lyd, siger Donahue og co.

Ved at kombinere indsigt fra musikalsk startdetektion og statistisk sprogmodellering har vi designet og evalueret en række dyb-læringsmetoder til at lære at koreografere, siger de.

Det er underholdende arbejde, der viser nytten af ​​maskinlæring til opgaver, hvor der er store annoterede datasæt. Det viser også, at endnu en bastion af menneskelig kreativitet er faldet for maskinerne.

Ref: arxiv.org/abs/1703.06891 : Dance Dance Convolution

skjule