Trumpovi nevyhráli volby britští datoví výzkumníci. Je to mýtus

Martin Robbins

Různá česká média od Respektu po Aktuálně publikovala s odvoláním na reportáž švýcarského Das Magazin tvrzení, že Trump získal prezidentství díky skvělé práci s daty ze sociálních médií. Autor názor označuje za bezbřehé přehánění.

Internetem už několik týdnů koluje mýtus z oboru datové vědy. Naposledy se vynořil v magazínu Vice a vypráví o společnosti Cambridge Analytica, která údajně sehrála zásadní roli v kampani Donalda Trumpa.

Datoví specialisté této společnosti prý v průběhu britského referenda o vystoupení z EU využili marketingových a datových analýz sociálních médií a s nebývalou přesností stanovili osobnostní profily voličů. Kampani Leave tím dopomohli k překvapivému vítězství. Krátce poté si je najala Trumpova kampaň, a jak se nám v článku tvrdí, zasloužili se o nepravděpodobné vítězství podruhé.

Ta historka mi připomíná cukrovou vatu — je na pohled krásná a hutná, ale když ji okusíte, v puse vám z ní skoro nic nezbude a dál máte hlad. Zanechává za sebou velehoru nezodpovězených otázek, a podíváte-li se na ně blíž, výsledek vás ani zdaleka neuspokojí.

Než se dostaneme k použitým metodám, musíme probrat ještě kampaň dalšího prezidentského kandidáta, Teda Cruze. Článek ve Vice se o ní zmiňuje, ale nejen to, dokonce se ji snaží vydávat za jakési vítězství přístupu Cambridge Analytica. Přitom jde o kampaň, v níž Teda Cruze po několika kratičkých týdnech převálcoval demagog z televizní reality show, který tou dobou o datovou vědu ani nezavadil. A Cruze i s jeho experty z Cambridge Analytica v zádech pak vystavil několikaměsíčnímu celonárodnímu ponižování.

Donald Trump se opravdu nestal americkým prezidentem díky magické práci s daty získanými ze sociálních sítí. Repro DR

Článek poukazuje na republikánské primárky v Iowě z 1. února 2016, při nichž mu tým datových výzkumníků pomohl identifikovat cílové voliče. Cruz skutečně zvítězil, ale v souboji čtyř kandidátů získal pouhých 27 % hlasů, jen o tři procentní body více než Trump. Autoři cudně mlčí o dalších třech státech, kde primárky v únoru proběhly — New Hampshire, Jižní Karolíně a Nevadě — a kde prohrál na celé čáře. Nezmiňují se ani o volební superúterý 1. března, při němž Trump Cruze v šesti státech rozdrtil dvouciferným rozdílem.

Nezapomeňte, že Trump si Cambridge Analytica najal teprve v červnu téhož roku. Do té doby, jak článek připouští, jeho veškeré aktivity v oblasti datových operací řídil „markeťák na volné noze a neúspěšný zakladatel start-upu, který mu za 1500 dolarů vytvořil jednoduchou webovou stránku“.  

Takže s republikánskými primárkami se to má ve skutečnosti tak, že velkolepý tým datových specialistů z Cambridge Analytica dostal na frak od chlápka s webstránkou za litr a půl. Udělat z toho ohromující příběh neporazitelného vědeckého voodoo týmu, který z Trumpa vyrobil nezastavitelný parní válec, je vskutku odvaha.

Pracovali vůbec ještě někdy pro někoho dalšího? Nemáme-li k dispozici úplný seznam klientů, je snadné vyzobat rozinky a chlubit se jenom vítězi.

A to jsme se zatím nedobrali k otázce, jak to vlastně dělají. Podle autorů článku používá Cambridge Analytica jakousi kombinaci dat z průzkumů, obsahu získaného ze sociálních médií a tradičních marketingových dat. Provedou cosi jako názorovou analýzu a sestaví „pětifaktorový“ profil miliónů Američanů (a v případě kampaně k Brexitu Britů).

Jistě, pětifaktorový model osobnosti, který Cambridge Analytica označuje jako metodu OCEAN, se v psychologii skutečně používá a může mít jistou výpovědní hodnotu například u odhadů úmrtnosti. Je ale třeba zmínit se o tom, že není bezvýhradně přijímán a má svoje vady.

Je také pravda, že lze poměrně úspěšně najít souvislost mezi demografickými údaji a politickými preferencemi — víme například, že v referendu o EU existovala korelace se vzděláním. To je ono příslovečné zrnko pravdy v našem příběhu.

Ale pojďme si to promyslet důkladněji. Za prvé, takováto data jsou dostupná kdekterému většímu týmu, který v kampani využívá datovou vědu. Cambridge Analytica neobjevila žádný tajný, hluboko zakopaný harddisk. Za druhé, využívá je způsobem, který dalece přesahuje hranice všeho, co nachází oporu ve známé vědě. Pětifaktorový model osobnosti zvaný OCEAN se normálně vytváří na základě dotazníku.

Sestavit ho podle něčích příspěvků na Facebooku je, mírně řečeno, neověřený vědecký postup. Je daný kanál vybraných příspěvků reprezentativní? Je vůbec veřejný a máte k němu přístup? Je na váš algoritmus stoprocentní spolehnutí, anebo, což je pravděpodobnější, třeba jen pětasedmdesátiprocentní?

A pak je tu potíž, jak všechna získaná data spolehlivě propojit. Jakou máte jistotu, že dokážete spárovat daný facebookový účet se správnou položkou ze seznamu voličů? Snad budete mít štěstí a zachytíte nějakou geografickou informaci, která vám umožní identifikovat jedinou osobu daného jména v daném městě a snad se vám podaří spojit ji s informací o jeho úvěrech nebo s něčím podobným.

Tak či onak skončíte u sledu kroků, které sice samy o sobě vypadají hodnověrně, ale dohromady tvoří břečku. Na facebooku je pouze šedesát procent Britů. Mnozí tam chodí jen jednou za čas. Jen asi tak polovina z nich má veřejný profil. Asi tak polovina z oné poloviny o sobě poskytuje dost informací, aby bylo možno sestavit jejich přesný OCEAN profil.

Asi tak pětasedmdesát procent z takto získaných dat je natolik jednoznačných, aby je bylo možno spárovat se záznamy z kreditních karet. A váš vzorek se rázem smrskne na nějakých deset procent populace. Samozřejmě tu pro ilustraci střílím čísla od boku, ale nejsou nerealistická a jistě chápete, kam tím mířím.

Společnosti Cambridge Analytica se připisuje tvrzení: „Vyprofilovali jsme osobnost každého dospělého ve Spojených státech amerických — 220 miliónů lidí.“ Je zjevné, že s využitím dat ze sociálních médií mohli vyprofilovat nanejvýš nějakých dvacet až třicet miliónů. A dokonce ani u tohoto vzorku nelze nezávisle ověřit jejich postupy, protože je nezveřejnili. U naprosté většiny lidí měli nejspíš k dispozici jen úplně běžná, standardní marketingová data, která používá kdejaká společnost zabývající se přímým marketingem.  

A to je teprve začátek. O reálných dopadech onoho voodoo marketingu v praxi totiž neexistuje ani jediný důkaz; existuje naopak spousta historek o tom, že využívání dat v kampaních těžce pokulhávalo. Skvělý článek napsal komentátor agentury Bloomberg Leonid Beršidský.

Poukazuje v něm na svou vlastní zkušenost: „Uvěřil bych v účinnost oněch šamanských manipulací, kdybych sám nebyl adresátem početných e-mailových vzkazů od lidí z Trumpovy kampaně, v nichž mě označovali za „významného příznivce“ a urputně se dožadovali finančních příspěvků i morální podpory, přestože mám ruské občanství a nemohu volit. Nevím, kde Trumpův datový tým sebral seznamy kontaktů, ale ani se nenamáhal porovnat je s otevřenými daty ze sociálních sítí. V mém případě mikrotargeting Cambridge Analytica očividně selhal. Poskytl jsem svou e-mailovou adresu také kampaním Bernieho Sanderse a Hillary Clintonové a zaregistroval jsem se jako účastník na jejich předvolební mítinky, ale ti mě na rozdíl od Trumpa nesmyslnými vzkazy nebombardovali.“

A teď pozor, v našem příběhu nastane zvrat: Jakmile se historka o Cambridge Analytica poprvé objevila na internetu, vyrukoval mluvčí společnosti s následujícím prohlášením: „Cambridge Analytica nevyužívá data z Facebooku. Nemá nic společného s dr. Michalem Kosinskim. Nezadává subkontrakty na výzkum. Nepoužívá stejnou metodiku jako on. Téměř nikdy nepoužila psychografiku.“

Tomu prohlášení můžete i nemusíte věřit, ale pokud souhlasíte s mým pohledem na věc, nejspíš mu uvěříte. I kdyby nějaká úžasná datová voodoo společnost skutečně vlastnila všechna uváděná data, pořád by to ještě neznamenalo, že je kampaně dokáží efektivně využít. A nijak významně by to neovlivnilo nejúčinnější strategie vstupující do hry — například válku zpravodajských médií, z níž Donald Trump tak úspěšně těžil.

Když se na celou kauzu podíváme z odstupu, co z ní zbude? Vidíme, že datová společnost, v jejímž představenstvu sedí Steve Bannon, chrlí vychloubačná tvrzení o své moci, ale o metodice, kterou používá, nic bližšího nevíme. Vidíme, že kandidát, Donald Trump, během celé své kampaně využíval stále tutéž úspěšnou strategii, ať už zaměstnával společnost Cambridge Analytica, anebo náhodně vybraného chlápka, který to umí s HTML.

A máme tu dalšího kandidáta, Teda Cruze, který si najal stejnou společnost a prohrál na celé čáře. A máme i další kandidátku, Hillary Clintonovou, která použila cosi velmi podobného Cambridge Analytica a rovněž prohrála.

A teď mi povězte, jak z toho všeho chcete uplácat příběh o nezadržitelném monstru v oboru datové vědy, které smete vše, co se mu postaví do cesty?   

Článek The myth that British data scientists won the election for Trump, který vyšel v Little Atoms pro DR přeložila HANA PERNICOVÁ.

    Diskuse
    Já tedy prohlášení Cambridge Analytica (CA) ohledně psychografiky a Kosinskiho nevěřím ani náhodou.

    A myslím, že to Martin Robbins podceňuje.

    Ta Kosinskiho metoda totiž jako výsledek dává přesně to, co CA chce a žádá.
    Vtip je v tom, že se Kosinskimu podařilo shromáždit více než milion podrobných dotazníků konkrétních lidí. Ty pak spojili s internetovými metadaty (na jaké stránky chodí, co kupují přes net, na co klikají a co "lajkujou" atd.). A z tohoto spojení vychází kouzlo -- stačí několik desítek internetových "kliků" a získáme velmi věrné povědomí o tom, kdo daná osoba je a jaké názory zastává.

    Ano zní to trochu děsivě, ale je to tak. Všichni si připadáme jako zcela jedinečné a originální bytosti -- proto získal Kosinski tak nepředstavitelné množství těch dotazníků, chceme svou originalitu vykřičet do celého světa. Původně počítal, že jich shromáždí pár desítek od kolegů a studentů.
    Ve své konkrétní činnosti už zas tak originální nejsme a děláme všichni to, co nám odpovídá.

    A to je přesně, co CA hledá. Aby mohla roztřídit anonymní internetovou masu a na vytříděné skupiny cílit reklamu - tj. např. černoští tradičně demokratičtí voliči dostanou video s nějakým výrokem Clintonové (klidně vytrženém z kontextu), který se jim nebude líbit................. politikové pořád žvaní a žvaní, za ta léta se vždy něco najde.

    No, musím končit, ale já bych CA nepodceňoval, zlepší se...
    P.S. Pokud vím, CA ty dotazníky získává z různých soutěží a tak.