Éccörkölgörl kultúrblog: május 2019

Seth Stephens-Davidowitz, a Harvardon végzett közgazdász, a Google volt adattudósa, a New York Times rovatvezetője szerint az, amit az emberekről gondoltunk, nagyrészt totális tévedés. Hogy miért? Azért, mert az emberek hazudnak. Hazudnak a barátaiknak, a szeretőiknek, az orvosuknak, a közvélemény-kutatóknak - és önmaguknak is.

Csakhogy az internet korában már nem kell arra hagyatkoznunk, amit az emberek magukról mondanak! A keresőmotorok, a közösségi oldalak, a randi- és a pornóoldalak digitális aranybányák a Big Data kutatóinak. Valós képet adnak arról, mit gondolnak, mit akarnak, mit tesznek valójában az emberek. Ezekből az adatokból megtudjuk, milyenek is vagyunk mi ténylegesen - ami lehet vicces, de akár sokkoló is. Ám mindenképpen elgondolkodtató. Mert a Big Datától szinte mindent megtudhatunk az emberi természetről - feltéve, ha azt kérdezzük tőle, amit kell.

A könyvről írtam egy 15 perces összefoglalót, íme!

Előszó

A big data adatbányászat nagyon jól használható a nyilvánvaló tények alátámasztására (pl. a New York Knicks kosárlabda-csapat New Yorkban a legnépszerűbb), de ugyanilyen alkalmas a meglepő igazságok felderítésére is, csak jól kell tudni feltenni a kérdést, és a megfelelő adathalmazokat - és esetleg azok kombinációit - kell tudni kreatívan felhasználni ahhoz, hogy ilyeneket is kinyerjünk a töménytelen mennyiségű adatból. Például a legtöbb politikai elemző azt jósolta, Trumpnak nincs esélye, hiszen Obama idejében mindenki azt hangoztatta, választásában semmi szerepe nem volt a bőrszínnek, és ezért úgy tűnt, Amerikából eltűnt a rasszizmus. A Google-keresések azonban arról árulkodnak, hogy már akkor is és azóta is mindvégig jelen van a rasszizmus, sőt egészen agresszív formában, csak éppen az ilyesmit, továbbá a választások előtti felméréseken a pártpreferenciát az emberek jellemzően eltitkolják, elferdítik. Sokan értetlenül álltak azelőtt, hogy Trump képes volt nyerni, de ha ismerték volna a Google Trends adatait, akkor ebben semmi meglepő nem lett volna számukra, hiszen számos előjele volt a fölényének.

1. Ösztönös "félreérzéseink"

Az ember a mindennapi élete során is számtalan adattudósi munkát elvégez (pl. viselkedésük alapján kiismeri az embereket stb.), de ennek során könnyen vét hibákat. A legjellemzőbb ilyen hiba a saját tapasztalat túlértékelése (ha nekem bevált egy pasizási módszer, azt gondolom, mindenki másnak így kellene pasiznia) és a drámaiság eltúlzott hatása (a légi közlekedés veszélyesebbnek tűnik az autónál, mert a légi katasztrófáknak nagyobb szenzációjuk van, míg a rengeteg halálos autóbaleset senkit sem hoz lázba).

Ez utóbbin alapuló általános tévhit az is, hogy az NBA ligájába jellemzően a szegény sorsból érkező fekete fiatalok kerülnek be, mert nekik a kosárlabdázás a felkapaszkodás kulcsa, azaz élet-halál kérdése. Ha azonban megvizsgáljuk a játékosok születési helyeit, továbbá egy szűk mintán utánanyomozunk a családi háttérnek, valamint - a Freakonomics-os közgazdász srácok felismerésére alapozva, miszerint az alacsony státuszúak hajlamosak különleges neveket adni gyerekeiknek, míg a felsőbb réteg a konvencionális keresztneveket preferálja - kiszámoljuk az NBA játékosok nevének arányait, mindhárom forrás abba az irányba mutat, hogy - mint mindenben - itt is a jó családi háttér vezet előnyhöz. Ennek legtipikusabb példája Michael Jordan, akinek az egész családja arra tette fel az életét, hogy a kis Michael bekerüljön az NBA-be. Csak éppen az ilyen esetek nem hangzatosak, hanem csak ennek ellenkezőjéről szokás mesélni az interjúkban. Ez utóbbira példa Lebron James. (Kettejük keresztneve itt is beszédes.)

A legmegbízhatóbb előrejelző azonban - mily meglepő! - a testmagasság. Az azonban tényleg meglepő, hogy milyen mértékben meghatározó: a szerző számításai szerint minden hüvelyk (2,5 cm) kb. megduplázza az NBA-be kerülés esélyét, bármilyen magasság esetén. Ez az exponenciális eloszlás okozza azt, hogy 183 cm alatt egy a kétmillióhoz az esélye az NBA karriernek, míg 213 cm felett minden ötödik férfi ott kosarazik.

2. Igaza volt-e Freudnak?

A big data módszernek köszönhetően olyan típusú adatokhoz is van hozzáférésünk, amiket eddig különböző okokból (akár logisztikai, akár annak magánjellege miatt) nem birtokoltunk. Ily módon végre tesztelhetővé vált Freud álmokról és elszólásokról alkotott elmélete is, mely szerint ezek a tudatalatti szexuális ösztönök megnyilvánulásai. Ebből kiderült, hogy a szexuális jellegű álomtartalmak (pl. banán mint fallikus szimbólum) pont ugyanolyan gyakorisággal bukkannak fel, mint amilyen gyakran a való életben találkoznak az adott dologgal az emberek (pl. amilyen gyakran banánt fogyasztanak). Ugyanígy, a billentyűzeten történő félreütések során a humán és a gépi hibázások pontosan ugyanolyan arányban vettek szexuális irányt (pl. stex helyett szex). Mindennek az az újszerűsége, hogy ezek az új típusú adatok - túl azon, hogy egyáltalán léteznek - őszinték, hiszen anonim módon és a tudtunk nélkül generáljuk őket, másrészt kis mintákat is könnyű elérni velük (pl. uborkával vs. paradicsommal álmodó nők).

3. Adatok újragondolva

Az új típusú adatok olyan tudáshoz juttatnak, ami korábban elérhetetlen volt. Ha ebből pénzt akarsz csinálni, akkor olyan területen kell újragondolva megközelítened az ott meglévő információkat, ahol jelenleg ósdi és nem hatékony módszerekkel dolgoznak. Például az amerikai munkanélküliségi adatok elképesztően lassan kerülnek nyilvánosságra, pedig a Google keresések korrelálnak a munkanélküliségi aránnyal (de nem ám a munkakereséssel kapcsolatos kulcskifejezések ugranak meg, hanem a pasziánsz és a pornó). Vagy ilyen például az influenzajárvány előrejelzése a rá jellemző tünetekre történő keresések alapján.

Ilyen újszerű adat volt, amikor XY szép lassan rájött, hogy a versenylovak családi származása helyett a belső szerveik mérete alapján érdemes válogatni közöttük, mert azok minél nagyobbak (különösen a bal szívkamra), annál többet hoznak a konyhára. Ehhez hasonlóan a borok árazása is megjósolható egyetlen egzakt matematikai képlettel, amiben a változók olyan időjárási adatok, mint a hőmérséklet és a csapadék mennyisége.

Szövegelemzéssel kideríthető az újságok politikai irányultsága, hiszen ugyanazt a jelenséget más-más szavakkal említik, negatív vagy pozitív eseményként tüntetik fel. Az USA egyetlen államként történő közfelfogásának története szintén jól kirajzolható a mentén, ahogy a többes számú hivatkozás szép lassan egyes számú hivatkozássá vált az idők folyamán. Ezekhez persze őszinte források kellenek, és a facebookos status update-ek tipikusan nem ilyenek. A Facebook szerint december 24. az év legboldogabb napja, de hát ki posztolná ki karácsony napján, hogy épp úgy érzi magát, mint a mosott szar?

A szöveges adattípus mellett egyre inkább hódít a kép alapú adathalmaz is. Ilyesmiből megvizsgálható, hogy az 1920-as évektől kezdve a fotótechnika elterjedésével párhuzamosan hogyan növekedett a mosolygás szintje az iskolai tablóképeken. Az űrfelvételek alapján pedig az éjjeli kivilágítás mértéke alapján olyan országok GDP-jéről is képet kaphatunk, ahonnan más úton nincsenek információink.

4. Digitális igazságszérum

Mivel jó benyomást akarunk tenni másokra, még a vadidegenekre is, ezért hazudunk a közvélemény-kutatóknak is. Minél személytelenebb a légkör, annál őszintébb a válasz, ezért az internet ígéretes terep. Sőt, ezen belül is a Google keresések azért ideálisak, mert belső ösztönzésből fakadnak: ha van egy eltitkolni vágyott tulajdonságom, semmi okom rá, hogy bárkinek is valljak róla, de egyedül a Google előtt üldögélve kiélhetem az ebből fakadó kíváncsiságomat (pl. rasszista viccek, betegségtünetek felkeresésével). Sőt, ezek a keresések általában megelőzik az önmagunknak tett vallomást, így úgymond a Google kereséseink felülírják az önáltatást is (pl. talán nem nyilvánítom rasszistának magam vagy nem érzem depressziósnak magam, miközben elég nyilvánvalóan rasszista/depressziós ténykedést végzek a neten). A legjobb példa erre a politikai szavazáson történő részvétel előrejelzése: bárki bármit is gondol magáról, a legmegbízhatóbban az vetíti előre, ki megy el szavazni, hogy előtte végzett-e ilyen irányú Google-kereséseket.

Gyakran éri az internetet a filter bubble vádja, de valójában nem igaz, hogy az internet szegregál, sőt sokkal nagyobb eséllyel botlunk tőlünk különböző emberekbe a neten, mint a családunkban vagy a barátaink között vagy a munkahelyünkön vagy a szomszédaink társaságában. Ennek az az oka, hogy jellemzően mindenki ugyanazokat a piacvezető hírportálokat követi, és a szélsőséges weboldalakra csak a netes forgalom kis töredéke jut el, sőt a témában igazán érdekeltek szándékosan felkeresik az ellentétes nézetet képviselő oldalakat is (akár tájékozódás, akár trollkodás céljából). A Facebookon ráadásul több emberrel állunk kapcsolatban, mint a való életben, ezért a tőlünk merőben különböző ismerőseink által megosztott tartalmak is bekopogtatnak hozzánk olykor-olykor. (Én eddig filter bubble-hívő voltam, de most inkább úgy érzem, annak működéséhez aktív részvétel kell, például ha csak Facebook algoritmusok mentén éled az információszerző életedet ahelyett, hogy te magad keresnéd fel az egyes hírportálokat, vagy ha például szándékosan elhallgattatod a tőled különböző véleményeket unfollow gombokkal és ismerős-letiltásokkal.)

A Google-keresések jobban tükrözik az igazságot a hivatalos adatoknál, mert a Google nem szűri ki a hiányzó adatokat, a fekete piacot. A gazdasági válság idejében például számítani lehetett a gyermekbántalmazás növekedésére, ám a kormányzati adatok ennek ellentmondtak. Ugyanakkor az ilyen irányú Google-keresések és a - kötelezően bejelentendő - gyermekbántalmazásból eredő halálesetek száma növekedett. A valóságban tehát valóban nőtt a gyermekbántalmazások száma, csakhogy ezek - akár a hivatali dolgozók kirúgása és a rendszer ebből eredő leterheltsége miatt - ezek híre nem jutott el a hivatalokig. Hasonló történt az abortusz-törvények szigorítása után is: csökkent a hivatalosan bejelentett abortuszok száma, ugyanakkor csökkent a terhességek száma is, miközben nőtt az alternatív magzatelhajtási módszerekre történő Google-keresések száma.

Mindezekkel szemben a Facebook megosztások és lájkolások a legmegbízhatatlanabb online adatok. Hogy miért? Mert az egész a rólunk alkotott kép kiretusálásáról szól. Az azonos példányszámban eladott és azonos mennyiségű Google-keresést begyűjtő értelmiségi magazin és bulvár pletykalap közül az előbbinek például 27-szer több lájkolója van a Facebookon. A női Facebook-posztokban a leggyakoribb férj jelzők a "legjobb", a "legszuperebb", az "olyan cukiii", miközben a Google-keresésekben a férjek leginkább "gyökerek", "idegesítően" és "aljasak". A Facebook a vetítésről szól, a Google az őszinte kíváncsiságunkról árulkodik.

5. Zoomoljunk rá!

Egy kép annál élesebb, minél több pixelből áll. Ugyanígy egy felmérés is annál pontosabb, minél nagyobb adatbázis áll mögötte. A digitális adatforrásoknak igen nagy előnyük, hogy olyan méretű adathalmazt képesek szállítani, amire semmilyen nagyívű offline felmérés nem képes. Egy óriási méretű adathalmaz pedig lehetővé teszi, hogy kisebb szegmenseit lehessen vizsgálni, rá lehessen zoomolni egy-egy földrajzi területre vagy idői ablakra vagy életkori csoportra. Például az USÁ-ban nincs nagy esély arra, hogy a szegény szülők gyermeke meggazdagodjon, erre Kanada vagy Dánia sokkal alkalmasabb, ellenben Kalifornia vagy Washington DC már egész jó terep hozzá.

Erre alapozott reform módszer az alteregó-kutatás például a baseballban: minden játékos összes statisztikai adata alapján hozzá kapcsolódik 20 másik játékos, akik az aktuális időpillanatban a leginkább hasonlítanak hozzá, és az ő pályafutásuk alapján előre lehet vetíteni, mi várható az adott játékostól. Ez a módszer sokkal jobb a sportok konzervatív nézetével szemben, miszerint amit a játékos az elmúlt 1-2 évben nyújtott, az várható tőle a következő években is. A könyv egy példája szerint igenis érdemes volt bizalmat szavazni és kivárni egy olyan baseball játékos nagy visszatérését, aki kezdeti berobbanása után 1-2 évre jelentősen visszaesett a teljesítményében, majd a sportág egyik leghíresebb játékosa vált belőle (btw. az ilyen nem mindennapi karrier-mintázatok jellemzően doppinghasználatot, majd 1-2 éves leállást, majd újbóli doppingolást tükröznek, de ez mellékszál). Ilyen algoritmust használ az Amazon, a Netflix, a Pandora is.

6. Labor az egész világ

A megfigyelések csak korrelációkat tudnak visszaadni, de az oksági összefüggések feltárásához kísérletekre van szükség. A big data terében a kísérleteket az A/B tesztek képviselik, amelyek baromi olcsón és baromi gyorsan és baromi egyszerű logisztikai megvalósítással képesek óriási adathalmazt nyújtani. A Google hirdetési rendszerének design-változásai és a hírportálok szalagcímei a profitnövelés érdekében, a Facebook algoritmusai a userek általi addikció reményében, a politikai kampányoldalak a toborzás céljából alkalmazzák ezt a módszert.

A való élet is kínál retrospektív A/B tesztelési lehetőségeket. Az amerikai foci döntőjének reklámidői például már akkor el vannak adva, amikor még nem lehet tudni, kik játsszák a döntőt, pedig a két döntős csapat városában nyilvánvalóan többen nézik majd a meccset, mint máshol. Így meg lehet vizsgálni, mennyire hatékonyak a tévéreklámok. E szerint egy-egy mozielőzetes reklámja, ami kb. 3 millió dollárba kerül, több mint 8 milliót hoz a konyhára. Az ún. regressziós diszkontinuitás elemzése az, amikor egy folytonos változóban mesterségesen generálunk egy küszöbértéket, amivel kettéválasztjuk a résztvevőket. Ilyen küszöb például a felvételi ponthatár, ami felett az épp hogy bejutottak és ami alatt az épp hogy lecsúszottak állnak, azaz akik között a valóságban nincs akkora képesség- vagy teljesítménybeli különbség, mint amennyire differenciálja a sorsukat a felvételi napján nyújtott teljesítményük. Ezzel a módszerrel vált világossá, hogy a nagyjából azonos képességű diákok a felnőtt életükben is nagyjából azonos életszínvonalon fognak élni, hiába jár az egyikük nívós iskolába, míg a másik csak egy középszerűbe. Az elit iskolák előnye túl van hangsúlyozva, amire az ad alapot, hogy az országelső diákok felfelé húzzák a tanulmányi átlagot, majd felnőttként a kereseti átlagot.

7-8. Big data: vigyázat, törékeny!

A big data esetében gyakran rengeteg változóval lehet dolgozni. Ha ezek nincsenek okosan megszűrve, ha a kérdés túl tág, akkor már csak véletlenül is kibukik valami szignifikáns eredmény. (Ez egyébként a kommersz, offline kutatásoknál is így van, csak itt ugye hatványozottan, mivel irtózatos méretű adatbázisból indul ki.) Épp ezért halott remény a big datára alapozva megjósolni a tőzsdepiaci változásokat vagy kiemelni az emberi intelligencia genetikai hátterét: az efféle túl sok változós és túl komplex rendszerekben ilyen nyitott kérdésre nem kapható érdemi válasz, maximum valami véletlenül becsúszott kamu korreláció.

A big datát olykor kiegészíti egy-egy small data elemzés, mert előfordul, hogy nem vagy nemcsak a számszerűsíthető tények a fontosak egy kérdésben. A tanárminősítés például szinte kizárólag a diákok által elért teszteredményeken alapszik, ezért nem ritka, hogy a tanárok elsődlegesen erre gyúrnak rá az órákon, sőt előfordul, hogy csalnak is a felméréseken. A teszteket érdemes lenne kiegészíteni osztálylátogatásokkal, ami persze nem olyan tömeges méretű kvantitatív adat, mint a rengeteg teszteredmény, de más aspektusból is képes megragadni a tanárok kvalitásait.

A big data vállalatok általi felhasználása a szerző szerint egy csomó etikai aggályt szül, mert az online viselkedésünk alapján diszkriminálhatnak bennünket a cégek tetszésük szerint. Kiderült például, hogy aki hitelkérelmében ígérget és istent emlegeti, az sokkal nagyobb eséllyel megy csődbe, míg aki pénzügyekben jártas szakszavakkal kommunikál, az sanszosan törlesztőképes marad mindvégig. A különböző Facebook csoportok erősen korrelálnak az IQ-val, amivel a munkaadók kiszűrhetik az állásra jelentkezők közül a kevésbé potenciális jelölteket. Alteregó-kereséssel a cégek személyre szabottan magasabb árakat mutathatnak olyanoknak, akik valószínűleg drágábban is megvásárolják a termékeiket. (Én mindezt nem érzem nagy horderejű parának. Egyfelől eddig sem volt esélyegyenlőség semmilyen ügyintézés terén, nekem nem fáj, hogy a big data alkalmazásával a jövőben már nem üres előítéletekre, hanem valós összefüggésekre alapozzuk majd a skatulyázást, másfelől aki nem óhajtja, hogy online tevékenysége alapján diszkriminálják, az ne posztolgassa ki élete minden rezdülését publikusan.)

A big data kormányzati felhasználása is előremutató dolgokat szülhet, például ha egy adott régióban megugrik az öngyilkosság iránti érdeklődés vagy egy kisebbség iránti gyűlölet, akkor lehet társadalmi szintű lépéseket tenni (pl. segélyvonalak hirdetéseivel teleplakátolni a várost vagy kiemelt rendőri felügyeletet elrendelni az adott embercsoport közösségi helyszínei mellé). Ugyanakkor a szerző óva int attól, hogy a keresési adatokat egyéni szinten is felhasználhassák az állampolgárok ellen, egyrészt a magánélet védelme miatt, másrészt módszertani okokból is, hiszen egyetlen ember kereséséből (nem mintha ez big data lenne) korántsem vonhatóak le afféle következtetések, mint több tízezer vagy még több felhasználó online tevékenységéből.

Éccörkölgörl kultúrblog

Hogyan veszítsünk el egy maratont?

Mindenki hazudik