Dėl pernelyg didelio vadinamojo nešališko duomenų gavybos pažado


Nobelio premijos laureatas Richardas Feynmanas paprašė savo „Caltech“ mokinių apskaičiuoti tikimybę, kad jei jis vaikščiojo už klasės ribų, pirmasis automobilio parkavimo automobilyje būtų specialus numerio ženklas, ty 6ZNA74. Darant prielaidą, kad kiekvienas skaičius ir raidė yra vienodai tikėtini ir nustatyti nepriklausomai, tikimybė, kad tikimybė bus mažesnė nei 1 iš 17 milijonų. Kai mokiniai baigė skaičiavimus, Feynmanas atskleidė, kad teisinga tikimybė buvo 1: jis matė šią licenciją savo klasėje. Kažkas labai mažai tikėtina, jei tai jau neįvyko.

Feynmano gaudyklė – duomenų apie modelius be jokių išankstinių idėjų apie tai, kas ieško, yra Achilo kulnas, pagrįstas duomenų gavyba. Nieko neįprasto ir nenuostabu po to, kai jis jau įvyko, nėra neįprasta ir nenuostabu. Modeliai tikrai bus surasti ir gali būti klaidinantys, absurdiški ar dar blogesni.

Savo geriausiai parduodamoje 2001 m. Knygoje Gerai ir puikiaiJim Collins palygino 11 bendrovių, kurios per praėjusius 40 metų viršijo bendrą akcijų rinką, iki 11 bendrovių, kurios nebuvo. Jis nustatė penkis išskirtinius bruožus, kuriuos sėkmingai veikiančios įmonės turėjo. „Mes nepradėjome šio projekto su teorija, kad galėtume išbandyti ar įrodyti“, – pasigyrė Collinsas. "Mes stengėmės sukurti teoriją iš žemės, kuri būtų gauta tiesiogiai iš įrodymų."

Jis ėjo į Feynmano spąstus. Kai žvelgiame atgal į bet kurią įmonių grupę, geriausia ar blogiausia, visada galime rasti tam tikrų bendrų bruožų, todėl jų suradimas visai nerodo. Paskelbus Gerai ir puikiaiPuikus 11-osios „Collins“ atsargų atlikimas buvo aiškiai vidutinis: penkios atsargos buvo geresnės už bendrą akcijų rinką, o šešios – blogiau.

2011 m. „Google“ sukūrė dirbtinio intelekto programą, vadinamą „Google“ gripu, naudodama paieškos užklausas, kad būtų galima prognozuoti gripo protrūkius. „Google“ duomenų gavybos programa apžvelgė 50 milijonų paieškos užklausų ir nustatė 45, kurios buvo labiausiai susijusios su gripo paplitimu. Tai dar vienas duomenų gavybos gaudyklės pavyzdys: galiojantis tyrimas iš anksto nurodys raktinius žodžius. Paskelbusi ataskaitą „Google“ gripas pervertino gripo atvejų skaičių per 100 iš kitų 108 savaičių, vidutiniškai beveik 100 procentų. „Google“ gripas nebetinka gripo prognozių.

Interneto rinkodaros nuomone, jis galėjo padidinti savo pajamas, pakeisdamas tradicinę mėlyną tinklalapio spalvą į kitą spalvą. Po kelių savaičių bandymų bendrovė nustatė statistiškai reikšmingą rezultatą: matyt, Anglija mėgsta kankinti. Žiūrėdami į keletą alternatyvių spalvų šimtui šalių, jos užtikrino, kad kai kurioms šalims tam tikros spalvos gautų pajamų padidėjimą, tačiau jie iš anksto nesuvokė, ar Anglijoje parduodama daugiau. Kaip paaiškėjo, pasikeitus Anglijos tinklalapio spalva, pajamos sumažėjo.

Įprastas neurologijos eksperimentas apima savanorio parodymą MRI mašinoje įvairiais vaizdais ir užduodant klausimus apie vaizdus. Matavimai yra triukšmingi, ima magnetinius signalus iš aplinkos ir skirtingų smegenų dalių riebalų tankio pokyčių. Kartais jie praleidžia smegenų veiklą; kartais jie siūlo veiklą ten, kur jų nėra.

„Dartmouth“ absolventas naudojo MRI mašiną, kad ištirtų lašišų smegenų veiklą, nes buvo rodomos nuotraukos ir užduodami klausimai. Įdomiausia, kad tyrimas buvo ne tas, kad buvo ištirtas lašišas, bet kad lašiša buvo mirusi. Taip, į MRI įrenginį buvo įdėta negyvų lašišų, įsigytų vietinėje rinkoje, ir buvo atrasti kai kurie modeliai. Buvo neišvengiamai modelių – ir jie visada buvo beprasmiški.

2018 m. Yale ekonomikos profesorius ir absolventas apskaičiavo koreliaciją tarp kasdienių Bitcoin kainų pokyčių ir šimtų kitų finansinių kintamųjų. Jie nustatė, kad „Bitcoin“ kainos teigiamai koreliavo su vartojimo prekių ir sveikatos priežiūros pramonės atsargų pajamingumu ir kad jos neigiamai siejasi su sukauptų produktų ir metalo kasybos pramonės šakų pelnu. „Mes nepaaiškiname“, – sakė profesorius, „mes tiesiog dokumentuojame šį elgesį.“ Kitaip tariant, jie taip pat galėjo pažvelgti į Bitcoino kainų sąsajas su šimtais telefonų numerių sąrašų ir pranešė apie didžiausias koreliacijas.

Kornelio universiteto Maisto ir prekės ženklo laboratorijos direktorius autorius (arba autorizavo) daugiau kaip 200 recenzuojamų straipsnių ir parašė dvi populiarias knygas, išverstas į daugiau nei 25 kalbas.

2016 m. Dienoraštyje, pavadintame „Grad studentas, kuris niekada nepasakė“, jis rašė apie doktorantą, kuriam buvo suteikta informacija, surinkta italų bufete.

Parašyta elektroninio pašto korespondencija, kurioje profesorius patarė absolventui atskirti „diners“ į „vyrus, moteris, pietų lankytojus, vakarienę lankančius žmones, žmones, kurie sėdi vieni, žmonių valgyti su 2 grupėmis, žmones, maitinančius 2+ grupes, žmones, kurie užsako alkoholį , žmonės, kurie užsako gaiviuosius gėrimus, žmonės, kurie sėdi šalia savitarnos stalo, žmonės, kurie sėdi toli, ir tt… “Tada ji galėjo pažvelgti į skirtingus būdus, kuriais šie pogrupiai gali skirtis:„ # pica pica, # kelionės, užpildymo lygis ar jie gavo desertą, ar jie užsisakyti gėrimą ir tt… “

Jis padarė išvadą, kad ji turėtų „sunkiai dirbti, išspausti tam tikrą kraują iš šio roko“. Niekada nesakydamas, studentas gavo keturis dokumentus (dabar vadinamus „picos popieriais“), paskelbtus kartu su Kornelio profesoriumi. Žinomiausias popierius pranešė, kad vyrai valgo su moterimis 93 proc. Daugiau picos. Jis nesibaigė gerai. 2018 m. Rugsėjo mėn. Kornelio fakulteto komisija padarė išvadą, kad jis „padarė mokslinį nusižengimą savo tyrimuose“. Jis atsistatydino ir įsigaliojo kitą birželio mėnesį.

Geras tyrimas prasideda aiškia idėja apie tai, ko ieško ir tikisi rasti. Duomenų gavyba tiesiog ieško modelių ir neišvengiamai randa kai kuriuos.

Problema šiandien tapo endeminė, nes galingi kompiuteriai yra tokie geri, kad grobia didelius duomenis. Duomenų gavėjai nustatė sąsajas tarp „Twitter“ žodžių ar „Google“ paieškos užklausų ir nusikalstamos veiklos, širdies priepuolių, akcijų kainų, rinkimų rezultatų, Bitcoin kainų ir futbolo rungtynių. Galbūt manote, kad pateikiu šiuos pavyzdžius. Aš ne.

Yra dar didesnių koreliacijų su grynai atsitiktiniais skaičiais. „Big Data Hubris“ mano, kad duomenų surašytos koreliacijos turi būti prasmingos. Rasti neįprastą modelį „Big Data“ nėra labiau įtikinantis (ar naudingas), nei rasti neįprastą licencijos plokštę ne Feynmano klasėje.

WIRED nuomonė skelbia išorinių kūrėjų parašytus kūrinius ir atstovauja įvairiems požiūriams. Skaityti daugiau nuomonių čia. Pateikite op


Daugiau puikių WIRED istorijų