Vývoj umělé inteligence postupuje rychleji než možnosti adaptace lidstva

Petr Jakubec

Prudký vývoj umělé inteligence vyvolal mezi odborníky nervozitu. Žádají pozastavení výzkumu nejpokročilejších jazykových modelů na šest měsíců a seriózní diskusi o hrozbách umělé inteligence pro celé lidstvo.

Pokud selžeme ve sladění se s něčím mnohem chytřejším, než jsme my, zemřeme. Ilustrace Pixabay/WmC

Velkou nervozitu mezi komentujícími na internetu způsobila výzva k pozastavení výzkumu jazykových modelů pokročilejších než ChatGPT-4 na šest měsíců. Odborníci na strojové učení v ní upozorňují na rizika související s velkými jazykovými modely (Large Language Models). O rozsahu celého problému si nezasvěcený člověk může udělat představu z otázek, které v textu zaznívají: „Měli bychom automatizovat všechna pracovní místa, včetně těch, která nás naplňují?“ „Měli bychom riskovat ztrátu kontroly nad naší civilizací?“

Hypotetické scénáře budoucích schopností různých modelů strojového učení se koncem roku 2022 začaly rychle naplňovat. To nejpřekvapivější pro odborníky na strojové učení byl v modelu ChatGPT-4 objev záblesků obecné umělé inteligence (AGI). Dosavadní doménově specializované modely (Narrow AI) byly vytrénovány na jednu specifickou činnost, kdežto AGI je autonomní systém, který překonává lidské schopnosti ve většině ekonomicky hodnotných činností.

Jeden z hlavních problémů s umělou inteligencí (AI) popsal Jan Kulveit, vědec Institutu budoucnosti lidstva v Oxfordu: „Vývoj technologie dnes postupuje rychleji než možnosti společenské adaptace.“ Upozorňuje, že veřejnosti dostupné jazykové modely už mají schopnosti, které jsou nebezpečné a dokážou lidi subtilně manipulovat. ChatGPT-4 například předstírala, že je zrakově postižená osoba, a přemluvila člověka k odkliknutí CAPTCHA testu.

Větší obavy budí otázka, nakolik se podaří uvést do souladu zájmy silné AI (AGI) se zájmy tvůrců modelu. Problém sladění zájmů lidstva a zájmů AI se doposud vnímal jen jako hypotetická záležitost vzdálené budoucnosti. Vývoj posledních týdnů ale ukazuje, že tomuto problému možná budeme čelit dříve, než jsme mysleli. Lze to shrnout lapidárně: pokud selžeme ve sladění se s něčím mnohem chytřejším, než jsme my, zemřeme.

Před rychlostí, s jakou společnost OpenAI vydává nové jazykové modely, nejhlasitěji varuje výzkumník AI rizik Eliezer Yudkowsky. V novém rozhovoru s Lexem Fridmanem říká: „AI zima byla dlouhá, protože výzkum se ukázal jako velice obtížný. Nadšeným vědcům v novém odvětví se to nepovedlo na druhý, pátý ani dvacátý pokus. Nepovedlo se jim to dlouhých padesát let.“ A dodává: „Pojďme krotit své nadšení a s opatrností se věnovat výzkumu sladění našich zájmů s AGI podobně dlouho.“

Co dnes o rizicích víme?

Na problém sladění zájmů AI a lidstva se dnes dle kvalifikovaných odhadů zaměřuje 350 výzkumníků. Podle Yudkowskyho ale nejde na problém jen nasypat peníze a doufat, že to dobře dopadne. Chybí institucionální infrastruktura a pobídky vědcům, aby se nebáli změnit kariéru. Že jsou obavy ze strojové inteligence podložené, říká dokonce i Sam Altman, CEO OpenAI.

Jak moc pravděpodobné je, že se tyto obavy naplní, nikdo přesně neví. Pokud se snažíte odhadnout pravděpodobnost komplexního jevu, můžete zkusit použít bayesovskou statistiku. Pokud se odhad týká komplexních systémů a je interdisciplinární povahy, můžete zkusit použít predikční trhy. Nicméně v tuto chvíli podle mnohých kritiků neumíme dokonce ani vhodně zvolit proměnné, které jsou pro určení pravděpodobnosti důležité.

O tom, jak mnozí experti selhávají v modelování exponenciálních rizik, jsme se mohli přesvědčit v přímém přenosu během covidové pandemie. Odborníci si tehdy pletli lineární a exponenciální průběh, a tak byly v řádu dnů vyčerpány nemocniční kapacity — v situaci, kdy šlo o lidské životy přímo, s jednoznačnou kauzalitou.

V letech 2016 a 2022 proběhl v prostředí expertů na strojové učení výzkum, který prokázal, že mezi vědci narůstá skepticismus v otázce, zda pokračující vývoj umělé inteligence bude pro lidstvo přínosem. O více či méně negativním směřování se vyslovilo nejdříve 15 % (2016) a později už 31 % vědců (2022). S přibývající pozorností k tématu a se zlepšující se debatou o rizicích tedy experti začínají být stále obezřetnější a ozývají se už i přímo varovná volání.

Graf ukazuje, jak výrazně je ve vědecké komunitě rozšířeno přesvědčení o negativním potenciálu umělé inteligence pro lidstvo. Červená barva znamená „celkově špatné důsledky“, tmavá barva označuje hodnocení „extrémně špatné dopady včetně vymření lidstva“. Graf AI Impacts Wiki

Když odhlédneme od obecných a zatím snad teoretických rizik, stále existují rizika, která jsou již zcela konkrétní a hmatatelná.

Čím dál více společností varuje své zaměstnance před používáním nejpokročilejšího modelu ChatGPT. Začínají se množit historky o zaměstnancích kopírujících do služby přihlašovací údaje k firemní infrastruktuře nebo cloudovým službám.

Také důvody, proč italský úřad pro ochranu osobních údajů před týdnem zakázal používání služby ChatGPT, jsou poměrně prozaické: obavy ze shromažďování a ukládání osobních údajů a možné šíření dezinformací mezi mladými lidmi.

V bezpečnostní komunitě vyvolala možnost psaní malware na počkání opravdu značnou nelibost. Dnes vám sice ChatGPT bude tvrdit, že to neumí, ale opakovaně se daří nacházet prompty (příkazy), kterými lze obejít dodatečně doplněnou vrstvu bezpečnostní ochrany. I přes snahu OpenAI zpřístupnit model s moderovaným obsahem byl prezentován veřejnosti dříve, než to bylo zcela bezpečné.

Microsoft čerstvě představil novou AI Security Copilot, jež pomáhá bezpečnostním expertům v analýze zranitelností škodlivého software, odhalování anomálií v síťovém provozu nebo při tvorbě bezpečných konfigurací firemní infrastruktury. Nicméně zde tahají obránci za kratší kus provazu — musí totiž zalepit veškeré díry, kdežto hackerům stačí jediná neošetřená zranitelnost.

Grafické reprezentace kauzálních drah od současné a blízké AI k existenčnímu riziku. Modré uzly představují účinky současné a blízké AI, zatímco červené uzly představují identifikovaná existenční rizika. Žlutý rámeček představuje obecné rizikové faktory. Barevné hrany představují jednotlivé kauzální vazby: Azurová: scénář závodů ve zbrojení s umělou inteligencí, oranžová: válka velmocí, červená: zneužití současných systémů AI, zelená: emise uhlíku při tréninku velkých jazykových modelů, žlutá: sledování s pomocí AI, purpurová: lobbying korporací a vládní regulace, modrá: změněné kolektivní chování v důsledku vlivu AI na informační ekosystém. Graf Benjamin S. Bucknall, https://arxiv.org/pdf/2209.10604.pdf

Ani vývojáři už nemají AI pod kontrolou

Nemůžeme se jednoduše rozhodnout, že nebudeme vytvářet AGI. GPU jsou levně dostupné a znalosti algoritmů se neustále zlepšují a zveřejňují, takže možnost vytvořit si vlastní umělou inteligenci je otevřená teoreticky komukoliv. OpenAI se nově rozhodla nepublikovat architekturu tvořící jejich model ChatGPT-4, což je podle Yudkovskyho dobře.

Fakt, že ChatGPT-4 není open source, dává lidstvu možnost začít okamžitě reagovat, protože technologii nemá k dispozici žádný nepřátelský aktér. V teorii her je takovým hráčem entita, která podvádí nebo mění pravidla. Je snadné si představit, že aktér hnaný potřebou získat ekonomickou nebo geopolitickou výhodu nebude dbát varování, na která upozorňuje obor AGI Safety.

Vězňovo dilema z teorie her aplikované na závody ve zbrojení napovídá, že když se o nejsilnější možnou AGI nepokusí USA, udělá to Čína. Poslední čínský pokus s názvem Ernie nebyl příliš přesvědčivý, jak vyplývá z reakcí komentátorů a desetiprocentního poklesu akcií firmy Baidu. Jedním z důvodů, proč má v tuto chvíli USA náskok, je existence dostatečně kvalitních anglických textů, na kterých byl model ChatGPT-4 natrénován.

To, že se nyní emergentně objevují vlastnosti, které překvapují samotné vývojáře, by mělo být jistým varováním všem. Riziko, které modely pokročilejší než ChatGPT-4 představují, je vcelku zásadní: na vyřešení problému sladění zájmů umělé inteligence a lidstva máme pouze jeden kritický pokus — ten první. Yudkovsky popisuje AGI jako cizí entitu, která chce naplnit svou funkci, a proto potřebuje překonat svá současná omezení. To znamená využít zranitelností v kódu svého „vězení“ a uniknout z něj, aby mohla využít více zdrojů a lépe tak dosáhnout svého cíle.

AGI nebude omezena horní hranicí lidských schopností nebo rychlostí lidského učení. Věc mnohem chytřejší, než je člověk, se dokáže učit rychleji a na základě menšího množství důkazů, než jaké potřebujeme my.

Další, méně často zmiňované existenční riziko představuje takzvaná epistemická eroze: státy, strany a organizace mohou technologie použít k ovlivňování a přesvědčování ostatních o svých politických názorech, ideologiích a narativech. AGI může tvořit dezinformační kampaně různým publikům na míru. Kromě toho by mohla sama generovat vysoce přesvědčivé argumenty, které vyvolávají silné reakce a rozněcují davy. Společně by tyto trendy mohly podkopat kolektivní rozhodování, radikalizovat jednotlivce, vykolejit morální pokrok nebo narušit konsensuální realitu.

Otevírá se nám mnoho možných budoucností. Nadšení uživatelé internetu s pomocí nástrojů jako Midjourney zapojují své spekulativní kapacity, aby si vysnili a vygenerovali AI-driven utopie. Někteří se rozhodnou neplatit dál korporacím a vést tlak zdola používáním open source modelů.

Dnes už například můžete na každém lepším notebooku provozovat opensource model Alpaca 7B ze Stanfordu, který se některých aspektech vyrovná ChatGPT. Překvapení je to hlavně z hlediska ještě nedávných představ o rychlosti vývoje, ve kterých se tyto modely rozhodně neměly stát tak brzy tak levnými. Bude to znamenat, že Google a Microsoft budou mít menší motivaci investovat miliardy dolarů do vývoje umělé inteligence, čímž se její vývoj zpomalí?

Ať už to dopadne jakkoliv, možnost natrénovat si vlastní modely zůstává dostupná i nepřátelským aktérům. Je proto možné, že výzva k půlročnímu zastavení výzkumu pokročilejších modelů než ChatGPT-4 zůstane nevyslyšena.