Hvordan DeepMinds Memory Trick hjælper AI med at lære hurtigere

Intelligente maskiner har mennesker i kikkerten. Deep-learning-maskiner har allerede overmenneskelige færdigheder, når det kommer til opgaver som ansigtsgenkendelse, videospil og endda det gamle kinesiske spil Go. Så det er let at tro, at mennesker allerede er skudt ud.

Men ikke så hurtigt. Intelligente maskiner halter stadig bagud mennesker på ét afgørende område af ydeevne: den hastighed, hvormed de lærer. Når det kommer til at mestre klassiske videospil, for eksempel, tager de bedste dybdelæringsmaskiner omkring 200 timers spil for at nå de samme færdighedsniveauer, som mennesker opnår på kun to timer.

Så dataloger ville meget elske at have en måde at fremskynde den hastighed, hvormed maskiner lærer.



I dag hævder Alexander Pritzel og venner fra Googles DeepMind-datterselskab i London at have gjort netop det. Disse fyre har bygget en dyb-læringsmaskine, der er i stand til hurtigt at assimilere nye oplevelser og derefter handle på dem. Resultatet er en maskine, der lærer betydeligt hurtigere end andre og har potentiale til at matche mennesker i en ikke alt for fjern fremtid.

Først lidt baggrund. Deep learning bruger lag af neurale netværk til at lede efter mønstre i data. Når et enkelt lag opdager et mønster, det genkender, sender det denne information til det næste lag, som leder efter mønstre i dette signal, og så videre.

Så i ansigtsgenkendelse kan det ene lag lede efter kanter i et billede, det næste lag efter cirkulære mønstre af kanter (den slags, som øjne og mund laver), og det næste efter trekantede mønstre som dem, der er lavet af to øjne og en mund. Når alt dette sker, er det endelige output en indikation af, at et ansigt er blevet opdaget.

Selvfølgelig er djævelen i detaljerne. Der er forskellige systemer for feedback, der giver systemet mulighed for at lære ved at justere forskellige interne parametre, såsom styrken af ​​forbindelser mellem lag. Disse parametre skal ændres langsomt, da en stor ændring i et lag kan have en katastrofal indflydelse på indlæringen i de efterfølgende lag. Det er derfor, dybe neurale netværk har brug for så meget træning, og hvorfor det tager så lang tid.

Pritzel og co har tacklet dette problem med en teknik, de kalder neural episodisk kontrol. Neural episodisk kontrol demonstrerer dramatiske forbedringer af læringshastigheden for en bred vifte af miljøer, siger de. Kritisk er vores agent i stand til hurtigt at fastholde meget succesfulde strategier, så snart de er erfarne, i stedet for at vente på mange trin med optimering.

Grundtanken bag DeepMinds tilgang er at kopiere den måde, mennesker og dyr hurtigt lærer. Den generelle konsensus er, at mennesker kan tackle situationer på to forskellige måder. Hvis situationen er bekendt, har vores hjerner allerede dannet en model af den, som de bruger til at finde ud af, hvordan de bedst opfører sig. Dette bruger en del af hjernen kaldet den præfrontale cortex.

Men når situationen ikke er bekendt, må vores hjerner falde tilbage på en anden strategi. Dette menes at involvere en meget enklere test-og-husk tilgang, der involverer hippocampus. Så vi prøver noget og husker resultatet af denne episode. Hvis det lykkes, prøver vi det igen, og så videre. Men hvis det ikke er en vellykket episode, forsøger vi at undgå det fremover.

Denne episodiske tilgang er tilstrækkelig på kort sigt, mens vores præfrontale hjerne lærer. Men den bliver hurtigt bedre end den præfrontale cortex og dens modelbaserede tilgang.

Pritzel og co har brugt denne tilgang som deres inspiration. Deres nye system har to tilgange. Den første er et konventionelt dybt læringssystem, der efterligner adfærden i den præfrontale cortex. Den anden minder mere om hippocampus. Når systemet prøver noget nyt, husker det resultatet.

Men det er afgørende, at det ikke forsøger at lære, hvad man skal huske. I stedet husker den alt. Vores arkitektur forsøger ikke at lære, hvornår man skal skrive til hukommelsen, da dette kan være langsomt at lære og tage en betydelig mængde tid, siger Pritzel og co. I stedet vælger vi at skrive alle oplevelser til hukommelsen og lade den vokse sig meget stor sammenlignet med eksisterende hukommelsesarkitekturer.

De bruger derefter et sæt strategier til hurtigt at læse fra denne store hukommelse. Resultatet er, at systemet kan gribe ind i succesfulde strategier meget hurtigere end konventionelle deep-learning-systemer.

De fortsætter med at demonstrere, hvor godt alt dette fungerer, ved at træne deres maskine til at spille klassiske Atari-videospil, såsom Breakout, Pong og Space Invaders. (Dette er en legeplads, som DeepMind har brugt til at træne mange deep-learningsmaskiner.)

Holdet, som inkluderer DeepMind-medstifter Demis Hassibis, viser, at neural episodisk kontrol langt overgår andre deep-learning-tilgange i den hastighed, hvormed den lærer. Vores eksperimenter viser, at neural episodisk kontrol kræver en størrelsesorden færre interaktioner med miljøet, siger de.

Det er et imponerende arbejde med betydeligt potentiale. Forskerne siger, at en åbenlys forlængelse af dette arbejde er at teste deres nye tilgang på mere komplekse 3-D-miljøer.

Det bliver interessant at se, hvilke miljøer holdet vælger, og hvilken indflydelse dette vil have på den virkelige verden. Vi glæder os til at se, hvordan det lykkes.

Ref: Neural episodisk kontrol: arxiv.org/abs/1703.01988

skjule