Hvordan Google Street View-billeder afslører den demografiske sammensætning af USA

Hvert år bruger U.S. Census Bureau 1 milliard dollars på at undersøge befolkningen. Disse undersøgelser er designet til at pirre landets demografiske sammensætning ved at spørge en repræsentativ gruppe mennesker om deres race, køn, uddannelse, erhverv og så videre. Dette er en vigtig øvelse, fordi den giver et afgørende fugleperspektiv af befolkningen og hvordan den ændrer sig.

Men det er ikke nemt. Til at begynde med er dataene relativt store - Census Bureaus hovedundersøgelse, American Community Survey, giver resultater for alle byer og amter med en befolkning på over 65.000. Mindre områder figurerer ikke.

Hvad mere er, er undersøgelse af befolkningen en tidskrævende øvelse; så meget, at nogle data kan være fem år gamle, når de offentliggøres. Og fordi andre data er meget nyere, kan sammenligninger være problematiske.



Så demografer ville elske at have en hurtigere, mere effektiv og højere opløsning måde at studere befolkningen på.

Indtast Timnit Gebru på Stanford University og et par venner, som har brugt Google Street View-billeder til at lave bemærkelsesværdigt nøjagtige vurderinger af den demografiske opdeling i en lang række amerikanske byer. Deres teknik viser, hvordan demografer kan indsamle pålidelige data på en helt ny måde, der supplerer og forbedrer de nuværende metoder.

Gebru og co begynder med 50 millioner Street View-billeder samlet af Googles biler i 200 amerikanske byer. Teamet mener, at den type bil, folk ejer, er en stærk indikator for deres race, indkomst, uddannelsesniveau, erhverv og så videre.

Så Gebru trænede et sæt machine-vision-algoritmer til at genkende biler på disse billeder og derefter klassificere hver i en af ​​2.657 forskellige kategorier, der ikke kun afhænger af bilens mærke og model, men også dens alder. Dette giver en præcis ide om bilens værdi.

I alt klassificerede de omkring 22 millioner køretøjer, omkring en tredjedel af alle køretøjer på vejene i disse byer. Og det tog deres maskine omkring to uger at udføre opgaven med en hastighed på omkring 0,2 sekunder pr. køretøj. En menneskelig ekspert, der antager 10 sekunder pr. billede, ville tage mere end 15 år at udføre den samme opgave, siger Gebru og co.

Men hvordan forholder befolkningen af ​​køretøjer i et område sig til den lokale demografi? For at finde ud af det trænede holdet en anden dyb-læringsalgoritme til at lære sammenhængen mellem køretøjstyper og data fra amerikanske folketællinger og præsidentvalgs afstemningsmønstre i hvert område (et område på omkring 1.000 mennesker). Dette træningsdatasæt bestod af data fra 35 byer.

De brugte derefter resten af ​​dataene til at teste deep-learning-algoritmen. Spørgsmålet, de ønskede at besvare, var: givet mønsteret af køretøjer i et område, kunne algoritmen nøjagtigt forudsige demografien som registreret i den amerikanske folketælling og præsidentens stemmedata?

Det viser sig, at deep-learning-algoritmen kan gøre dette bemærkelsesværdigt godt. Ved at bruge de klassificerede motorkøretøjer i hvert kvarter udleder vi en bred vifte af demografiske statistikker, socioøkonomiske egenskaber og politiske præferencer for dets beboere, siger de.

For eksempel er sedaner tættest forbundet med demokrater, mens forlængede førerhuspickuper er tættere forbundet med områder, der stemte republikanere. Vi fandt ud af, at ved at køre gennem en by i 15 minutter, mens man tæller sedaner og pickup-trucks, er det muligt pålideligt at afgøre, om byen stemte demokratisk eller republikansk, siger Gebru og co.

Et vigtigt spørgsmål er, hvor godt disse konklusioner matcher dem, der er indsamlet af undersøgelser på den konventionelle måde. For at finde ud af det sammenlignede Gebru og co deres resultater med resultaterne fra U.S. Census Bureaus egne data fra American Community Survey. Og de fandt en stærk sammenhæng med demografiske faktorer som indkomst, uddannelse, erhverv og så videre. De var endda i stand til at lave finkornede forudsigelser om vælgerpræferencer på niveau med distrikter, som omfatter omkring 1.000 mennesker.

American Community Survey vil sandsynligvis forblive guldstandarden for dataindsamling, i det mindste for øjeblikket. Men muligheden for hurtigt at indsamle data af høj kvalitet ved hjælp af Google Street View har et stort potentiale til at give næsten realtidsovervågning af ændringer i befolkningen.

Og selvfølgelig er Google ikke den eneste organisation, der indsamler billeder af gaderne – det er ikke svært at forestille sig, at den samme proces anvendes på billeder fra Facebook, Twitter eller andre sociale medier, der er geotagget og datostemplet.

Ref: arxiv.org/abs/1702.06683 : Brug af Deep Learning og Google Street View til at estimere den demografiske sammensætning af USA

skjule