Vezme nám umělá inteligence práci? Tomáš Mikolov & Jan Romportl

Přepis epizody

Ahoj, tady Dan Tržil, další díl podcastu Proti Proudu. Tentokrát jsem se znovu vrhnul na takový tematický speciál. Pokud už Proti Proudu posloucháte nebo na něj koukáte nějakou dobu, asi víte, že já jednou za čas dělám takovéto speciály, které mají za úkol jít do hloubky daného tématu. Zvu si tam dva lidi s odlišnými perspektivami, aby to mělo hloubku i šířku. Dnešní téma je umělá inteligence. Já nerad naskakuju na trendy a snažím se o nadčasový obsah, a proto mě překvapilo, že přestože jsem umělou inteligenci plánoval dlouho, tak dnes je to na vrcholu hypu, kdy na jedné straně máme lidi, kteří tvrdí, že to je ta příští průmyslová revoluce, která všechno změní a polovině z nás sebere práci. Druzí říkají, že to je jenom chytrá kalkulačka, nějaký počítačový model a zásadní uplatnění to nemá. Na tuto otázku mě zajímala odpověď. Pozval jsem si Tomáše Mikolova. Pokud ho neznáte, je to úžasný mladý vědec, jehož dizertační práce byl průlom v tom, co dnes vidíme ohledně jazykových modelů, ChatuGPT atd. Tomáš na základě toho získal práci ve Facebooku a dalších amerických gigantech. Vrátil se zpátky do Prahy pokračovat ve výzkumu. Vedle něj jsem posadil Jana Romportla. Honza se umělé inteligenci věnuje přes 20 let. Působil jako konzultant, podnikatel, manažer, vedl AI centrum v O2. Dnes vlastní AI startup. Má na to trochu jiný názor. Dnes si zkusíme zodpovědět, co jsou jazykové modely, jak to funguje. Zkusíme nahlédnout pod pokličku běžných článků, jak to nejlépe využít. Já myslím, že pokud tomu trochu lépe rozumíte, lépe chápete, k čemu je to vhodné používat a jestli to vlastně ten svět změní nebo ne. Přiznám se, že občas jsme zaběhli do větších podrobností, než jsem plánoval, ale umělá inteligence je téma, o kterém by měl člověk, který chce být v budoucnu úspěšný a chce mít dobrý život, o tom něco vědět, že to má potenciál, co bude změna, která změní všechno. Doufám, že vám pomůžu tomu trochu porozumět. Další speciální díl o AI.

V dnešním díle nebudou partnerská sdělení, ale udělám si krátké náborové okénko. Pokud Proti Proudu posloucháte, víte, že dělám Businesscast a několik firemních podcastů. Pak také aktivity kolem ceskapodcasty.cz. Já jsem fungoval jako podnikatel, který využívá lidi na jednotlivé části procesu. Chci to posunout na další úroveň. Chtěl bych někoho po svém boku, kdo mi s těmito věcmi pomůže. Primárně bych chtěl někoho také kdo poslouchá. Popíšu, co by to obnášelo. První jsou produkční věci – udržování produkčního procesu podcastů, organizování aktivit, domlouvání hostů. Druhou oblastí jsou hodně věci spojené s textem, psaním, copyrighting. Pokud máte zkušenosti se scénáři nebo dramaturgií, to by bylo parádní. Třetí oblastí je marketing – tvoření online obsahu, sociální sítě, YouTube atd. Pokud se najde někdo, kdo má zkušenosti se dvěma ze tří oblastí, tak se mi ozvěte, pokud byste chtěli spolupracovat. Hledám někoho, kdo má někoho za sebou. Není to juniorská pozice. Podle možností bych zkusil buď poloviční nebo plný úvazek. Mně chybí někdo, kdo by byl spolu se mnou uvnitř toho procesu. Pokud máte rádi podcasty a tohle vás zaujalo, tak se ozvěte na dan@protiproudu.cz.T Teď už speciál o umělé inteligenci.

Honzo, Tomáši, díky moc, že jste přijali moje pozvání do Proti Proudu. V tomto podcastu se spojují témata s dobrým životem a postavit si život podle svých představ. Velká část je chápat svět a vědět, kam svět míří a být adaptabilní a máš větší šanci, že si život v rámci toho světa postavíš, jak chceš. Občas v rámci speciálů chci probrat velké téma. Vždycky to dělám se dvěma hosty. Pozval jsem si vás, protože z toho, co jsem si o umělé inteligenci nastudoval, jste mi přicházeli jako ti dva, kteří do toho dávali zajímavé postřehy a nemluvili, jaký je nejlepší nástroj na dělání nevím čeho, ale trochu o to fundamentu. Začnu z úhlu, že jsem si myslel, že když budeme rozhovor nahrávat, že hype umělé inteligence, který teď je, bude trochu za námi. Teď mám pocit, že je to na vrcholu toho hype cyklu, že o tom mluví kadeřníci a taxikáři si o tom povídají. Myslíte si, že to tak je, že je to na vrcholu a ustane to? Nebo je to téma, které tady bude přítomné furt?

Tomáš: Já jsem měl stejný dojem pár měsíců zpátky, že se o tom mluví všude a musíme být na vrcholu a opadne to. Zatím se to nestalo. Jsem z toho překvapený. Já si to vysvětluju, že ten hype je jiný než před lety, kdy ty technologie udělaly velký pokrok ve vědecké komunitě. Občas to bylo ve zprávách, ale na běžné lidi to mělo vzdálenější vliv. Třeba AlphaGo, geneti počítač umí hrát Go lépe než lidi, tak hezký a bylo to ve zprávách po celém světě, ale pak z toho nic nebylo a hype opadl, ale teď ty nástroje, pomocí kterých si každý může vygenerovat obrázky nebo opsat slohovky, jsou dostupné pro širokou populaci, a proto ten hype není takový peakovitý, kdy to vystřelilo a spadlo, protože technologie je pro spoustu lidí velmi nová. Nic takového dříve nebylo, ale já se snažím uklidnit situaci, aby tu nebyly panikářské názory – taky když byl nový internet, tak chtěli zakazovat internety a tyto věci, počítačové hry jsou další příklad, kdy řada lidí, kteří nehráli, tak je chtěli zakazovat ostatním. Já myslím, že bitcoin taky X lidí chce zakázat. Já nehodnotím ty technologie, ale spíš zmiňuju ten strach z neznáma, že v populaci to někdy zbytečně zaznívá, když se objeví něco nového. Máme tu AI a skvělé nástroje, které rozšiřují, co dokázal Photoshop, tak dnes to kdekdo dokáže. 99 % těch věcí bych viděl jako pozitivní. Občas se tam objeví i ty negativní věci, ale ta diskuse často právě na veřejnosti mi přijde, že je příliš pesimistická, příliš se diskutuje rizika, příliš to nebezpečí a zároveň ten potenciál, což je 99 % té technologie, ten trochu opadá, tak doufám, že se dostaneme k pozitivním věcem taky dneska.

Určitě. Honzo, co myslíš ten hype cycle. U bitcoin to znamená, kdy to bude padat, když o tom mluví všichni. Jak je to u umělé inteligence?

Jan: Myslím, že ten hype nepomine teď. Bude ještě stoupat si myslím. Až bude klesat, tak neklesne pod úroveň, co je teď. Já si myslím, že je to relativně nový standard. Záleží, co zahrneme do hypu. Jestli hype je ten neurotický fomopocit jako fear of missing out, ten asi zmizí, ale ta hypovatost bude. Co AI zvládne a bude zvládat, tam ještě zdaleka nejsme na vrcholu. Vůbec zdaleka. Trochu doufám a přeju si, že o moc větší to fomo nebude.

Já byl na dovolené na Mauriciu, když vyšla ChatGPT-4, měl jsem pocit, že mi ujel vlak, že můj byznys nebude nikdy jako byl. Všichni jsou o dva světelné roky přede mnou.

Jan: Jako jo, ChatGPT byl zajímavý, byly tam určité aspekty. Navíc chat OpenAI zvládla nějak to zmanagovat tak, že té konkurenci trochu poskočila, ale byla to hlavně PR věc. Když se podíváme na predikční trhy, které se snaží aktuální stav světa vzhledem k odhadům, kdy může přijít ta obecná umělá inteligence, tak s tím zveřejnění ChatGPT nezahýbalo, což považuju za rozumnou věc. Já nemám tak úplně megaoptimistický názor k AI, tak se tu vzájemně budeme doplňovat, což si myslím, že je dobře. Na čem se s Tomášem shodneme, že AI je extrémně důležitá pro další vývoj celého lidstvo. Já nevím, že jak Tomáš, ale já se domnívám, že bez ní to nepůjde. Jsme ve stavu takovým způsobem globální společnost prorostlá s technologiemi, že odpojit to od technologií a odpojit to od AI už nepůjde. Navíc AI je potenciálním řešením na většinu dalších problémů, které ve světě můžeme mít, ale mám tam nějakou sadu obav, ale to pořád neznamená, že by se AI měla zakazovat nebo prostě nějaké divný regulatorní věci.

Pojďme to zarámovat. Tome, poprosím vysvětlit, co to je umělá inteligence asi ve zkratce. Před časem jsem se tady bavil s Sárou Polák. Zaznívalo, že je to jenom chytrá statistika. Dokážeme to dneska trochu zarámovat, ať si to laici lépe představí?

Tomáš: Mě se na tuto otázku pořád někdo ptá. A říct něco originálního není zase tak lehké. Kdybychom si chtěli vysvětlit, jak funguje umělá inteligence pro tu širší společnost, tak možná by to mohla být větší interakce mezi námi. Když to nebude srozumitelné, tak mi do toho skoč. Kdybych chtěl vysvětlit, jak fungují základní modely, tak můžeme přemýšlet nad detekcí spamu. Pro to je strojové učení. Umělá inteligence je vědní obor, který je tu desítky let, od poloviny minulého století, ale strojové učení je ta část, o které se dneska mluví. Umělá inteligence dnes, to ChatGPT, Midjourney, to jsou příklady modelů ze strojového učení, kde do toho zapadají ještě další věci, které jsou AI, ale nejsou strojové učení. Jenom k té terminologii. Máme modely strojového učení. Můžeme se podívat třeba na klasifikátory spamu, což je jeden z nejjednodušších použití, tak ty jsou založené v podstatě na nějakém statistickém modelu, kde ten model jako takový má určité vstupy. Na vstupu mám větu. Pak má výstup. Výstupem je ta klasifikace ano – ne. Ten model jako takový to může být počítačový program nebo matematická funkce, co mi spočítá něco ze vstupu a vypočítá výstup. To je pořád pochopitelný, ale klidně mi do toho skákej. Teď to strojové učení, tam jde o to, že ten program nebudeme psát ručně klasickým programováním, ale je to takové IF THEN ELSE, že pokud na vstupu bylo takové slovo, přičti 5 bodů, že to je. Přes strojové učení to jde naopak, že ten program sestavím automaticky, že mám trénovací data, což je množina vět. Třeba tisíců nebo milionů vět. Pak záleží na tom, na čem pracuju a v jaké firmě, ale kdybychom zůstali v malých číslech, to jsou tisíce vět, kdy každá z vět je označená člověkem, je tam anotátor, který se podívá na věty a řekne, jestli to je nebo není spam. Z těchto trénovacích vět se se staví pomocí trénovacího algoritmu, třeba neuronová síť, která klasifikuje, jestli to je nebo není spam. Je to takové mapování. Co jsem popsal, tomu se říká supervizonové učení. Nechci moc těch termínů, ale to je dominantní věc. 99 % je pro supervizované učení. Mám označené příklady obrázků nebo vět, kde jsou tam anotátoři. Popíšou třeba milion obrázků, dá se do toho hromada peněz. To nevyjde z počítače jako takového. Podle toho se natrénují ty modely a ty pak fungují na nových, neviděných datech. Takhle asi funguje umělá inteligence dneska.

Pokud si můžeme popsat ty jazykové modely, ChatGPT, to lidi znaj, tak jsem slyšel vysvětlovat to Petra Koubskýho. Já si myslím, že je dobré porozumět, jak to funguje, protože to zodpovídá na otázky, jak je možné, že si to vymýšlí atd. Když tohle moc nechápeš, tak spoustu těch lidí naráží na to, jak je možné, že to píše něco, co není pravda. Jak je možné, že to tu pravdu nepozná a co je pravda?

Jan: Jo, já to trošičku zarámuju do jiného úhlu pohledu na to, co je inteligence a co je umělá inteligence. Inteligence je schopnost dosahovat cíle, třeba komplexního cíle. V podstatě jakékoliv cíle. Když budu mít termostat, který má udržet teplotu na 21 °C, tak je to nějaká rudimentální inteligence. Dosahování cíle je jeden aspekt inteligence. Jinými slovy inteligence je forma kompetence dosahovat cíle. A zároveň to dosahování cíle není ledasjakým způsobem, ale skrze vytváření modelů světa. Model světa je nějaká zjednodušující reprezentace světa. Třeba model přehrady je věc na stole, která rozhodně není jak ta přehrada, ale ukazuje ty nejpodstatnější věci, které mě na přehradě zajímají. To znamená cesta od světa po model je cestou redukci dimenzionality, respektive ztrátovou kompresi. To je když vezmeš video, grabneš blue-ray disk a pak ho zkomprimuješ na 1 GB a dáš to na uloz.to. Většina věcí z původního videa se zahodila. Přesto to furt ukazuje to, co to má podstatného ukazovat. To znamená jsou tam herci, kteří mluví, to je ztrátová komprese. Inteligentní systémy jsou takové, které vytvářejí podobně redukované modely světa, které umožňují dosahovat nějakého cíle. To jsou inteligentní systémy. Dělá to svým způsobem šnek, žížala, pes, kočka, člověk. Dělá to i umělá inteligence, kde to umělé znamená nebiologické. Umělá inteligence je nebiologický systém schopný dosahovat nějakého cíle pomocí vytváření modelů světa, to znamená redukcí dimenzionality. Ten cíl v případě jazykových modelů, třeba neuronová síť. Tomáš byl kdysi průkopník neuronových sítí, když to ještě nebylo v módě, tak cílem systému je, když si přečte sekvenci slov, třeba „Ema mele.“ Tak predikuje, co nejspíš bude dál. Třeba „Ema mele maso.“ Nebo „Ema mele mlýnkem.“ Nebo „Ema mele nesmysly.“ A to je v podstatě všechno jazykový model je nějaká výpočetní struktura, nějaký algoritmus, který se učí na obrovském množství textu, jak ty sekvence slov po sobě jdou. Vytváří se model jazyka. Co je na tom podstatné – teď je propojení člověka a toho stroje, to transdiciplinární mezi kognitivními vědami a umělou inteligencí – ona většinová část modelu světa, jak si ho vytváří člověk, ty a já, tak je pořád nějakým způsobem jazyková. Jazyk je externí struktura, kterou lidstvo vytvořilo, je vně ve světě, co mi pomáhá o dětství strukturovat si to myšlení a vytvářet lepší modely světa a predikovat ten svět, jak dopadne. Když se naučím říkat „mama“ jako miminko, tak můžu predikovat, že přijde mlíčko. Něco podobnýho. V tomto je zásadní rozdíl, jak člověk od svého dětství absorbuje jazykovou strukturu. To absorbuješ, že se snažíš ovlivnit jako malé miminko lidi kolem sebe. Přivolat si maminku, dostat mlíčko, podat si hračku a neděláš to způsobem, že se snažíš predikovat další slovo, které teprve přijde. Čili my se dostáváme ke dvěma poměrně zajímavým a ne úplně kompatibilním modelům světa. Jeden, jak si ho vytvoří člověk ve své mysli, a druhý, jak si ho vytvoří neuronová síť, stroj, ale oba dva si ho vytvářeli na základě jiného cíle. Ty na základě toho, že jako biologický organizmus chce přežít. Jazykový model si ho dělá na základě optimalizace matematické funkce. Ty modely nejsou úplně odlišné. Oni modelují jeden a tentýž svět. To znamená jazykovou realitu, takže mám dva modely přehrady. Jeden modeluje věci na povrchu. Druhý věci vevnitř. Něco takovýho. Já bych se vymezoval k tomu, že se říká, že to je jenom statistický výpočty. To je strašná floskule, která jde hrozně po povrchu. Vychází to většinou z takových prostě – třeba před 20 lety byla velká parta lingvistů, kteří jeli celý svůj život něco, čemu se říká Chomskýho generativní gramatiky a takovýhle typ strukturního přístupu k jazyku. Ti nikdy nepřijali paradigma, takzvaný deep learning – hluboké učení v umělé inteligenci. Je to stejný typ lidí, kteří nezvládli ani v tom roce 2011. Tomášovy výstupy, to bylo peklo pro ty lidi, protože oni k tomu měli úplně jiný přístup, jak by se měl jazyk modelovat. To je ten stejný typ lidí, dokonce stejná konkrétní jedna osoba, která řekla, že velké jazykové modely jsou jenom statistický papoušek. Ono to je natolik pravda, nakolik člověk je statistický papoušek ve své jazykové realitě. To není tak, že to je jenom výpočet, protože co dělá mozek, je svým způsobem taky jenom výpočet běžící na jiném hardwaru, dělající jiné věci, ale to neznamená, že ta kompetence jednoho a druhého není neporovnatelná. Jazykové modely, to není žádný chatbot. To není nic, co bylo učené na to poznat realitu. To je prostě věc, která se učila predikovat sekvence slov. V té době ChatGPT-3 v roce 2020 – ruku na srdce, kolik z dnešních sebepropagujících se AI expertů vědělo o ChatGPT-3 na jaře 2020. V podstatě nikdo. Přitom to byl značný průlom. To, co se stalo s ChatGPT, že OpenAI jenom naučila nějakou metodou reinforcement learning with human feedback, aby z toho modelu ty sekvence slov, které z něj lezou, aby ten model preferoval ze sebe soukat sekvence, které se víc líbí lidem. To znamená trochu se to blíží setupu, který máš jeden děťátko, ale jenom metaforicky, že ze sebe soukáš sekvence, které povedou k nějaké odměně. Podobný setup se stal loni s ChatGPT. To jádro je, že predikuju další slovo, které přijde.

Takže vytvoříš tři slova a přemýšlíš, jaký je nejpravděpodobnější slovo je to další?

Jan: Když ten systém učíš. Potom když funguje, to je jinak. Ten jednorázově naučíš. Ono si přečte celý internet a učí se predikovat, jak jdou slova po sobě na internetu. Proč je dobrý na modelování světa? Protože kdy já budu schopný predikovat, jak jdou sekvence slov po sobě? Kdy v tom budu dobrý? Když se mi podaří vytvořit něco, co hodně blízko odpovídá modelu světa, jak ho mají lidi, kteří ty sekvence slov generují, takže nějakým divným alien způsobem se systém snaží v miliardách parametrů vytvořit takzvanou latentní reprezentaci modelu světa. Je vnitřně jiná, než jak ji reprezentujeme v mozku, ale na povrchu zase tak jiná není. Je to jako kdyby vetřelci z jiné galaxie se učili poslouchat, jak tečou signály na té Zemi. Oni by nevěděli, že to je řeč. Oni by se snažili predikovat, co přijde dalšího. Když budou dostatečně dobří, tak by přišli a byli by něco podobného jako ChatGPT-3.

Já do toho vstoupím, protože tím, jak jsi tady říkal, že ten jazyk tím, že lidi mají pocit, že ten jazyk je podobný jako kdyby to řekl jiný člověk, tak tomu hodně přisuzují lidský vědomí nebo další věci. Pro něj je dost nepochopitelný – něco tomu říká halucinuje, někdo že lže – proč to není pravdivý? Asi to vychází z toho, že ty lidi nejsou zvyklí na ten jiný model světa nebo tvoření, protože myslím, že to halucinování je jeden aspekt, který stále spoustu lidí i přestože má ty zkušenosti a vyzkoušeli si to, tak jim to úplně nedocvakává.

Jan: Já bych chtěl poukázat na to, že lidé úplně ignorují, že to stejné se jim děje i s jinými lidmi. Když já někomu řeknu: „Řekni mi, proč jsi udělal něco.“ Tak racionální vysvětlení důvodů mých akcí, a to se ví už dlouho, to je jenom vytvoření, konfabulace příběhů nad tím, co moje tělo nějak rozhodlo. Jsou studie, které ukazují, že soudci, kteří mají propustit vězně na podmínku, tak ho spíš čím dál jsou od snídaně a je nižší hladina cukru v krvi, tím spíš ho nepustí. Reálný důvod je hladina cukru v krvi a biochemická mašinerie, která se jim stane. Ale když se jich zeptáš, tak napíšou naprosto legitimní story, která může jít jedním i druhým směrem. Jinými slovy to je tak křehká věc, co je a co není halucinování.

Ale u lidí jsi zvyklý, že nejsou racionální. To tak chápeme. U těch strojů máš furt pocit, že racionální jsou. Teď kde je v tom ta racionalita?

Jan: Já nechci zabřehávat do toho, co je racionální. Prostě to, co je jazykový model, to je natolik komplexní výpočet, že do určité míry už je ze stejné říše jako výpočty, které běží v lidském mozku. Lidský mozek – to, že říkáme věci, jaké říkáme, to není, že si vybíráme, jestli chceme nebo nechceme být racionální. To jsou výsledky výpočetního procesu běžícího nad hardwarem našeho mozku. Stejně tak jako co leze z jazykového modelu je výsledkem výpočtu, který běží tam. Je to čistě sociokulturní věc, že lidi čekají, že to je stroj, tak by měl říkat jak Google vyhledávat, že co je psáno, to je dáno, takže svým způsobem by si měl odpovědět, že je to spíš blíž tomu člověku. To nechtějí slyšet, protože to je příliš krutá pravda, tak udělají nějakou iracionální věc řeknou, že se … já se k tomu nebudu vyjadřovat. Co jsi řekl, je jeden z argumentů, proč bychom měli trochu přisoudit, že se tam fakt sakra něco děje. Končím monolog. Sorry.

Tomáš: Já jsem chtěl slyšet vysvětlení, proč jazykové modely dělají ty chyby, protože mě zajímá, co si o tom myslí ostatní lidi, protože já tady můžu říct, že to vidím z opačného historického kontextu, protože já tady můžu říkat, že pokud jde o generování textů z neuronových jazykových modelů, to jsem dělal první na světě já roky před ostatními, takže já to vidím o dost jinak než ostatní, ale klidně bych si rád poslechl, jak to vidí ostatní lidi, proč to dělá ty chyby než to začnu vysvětlovat já.

Jan: Přestalo by to dělat chyby, kdybychom dostatečně dlouho dělali reinforcement learning toho systému tak, aby ty chyby nedělal. My jsme to dostatečně dlouho nedělali. My předpokládáme, že nedělat chyby v lidském světě, ten etalon, proč nedělat chyby v lidském světě je ten, jak lidi fungují. To znamená já nedělám víceméně chyby v lidském světě, protože jako biologická entita jsem byl vyrostlý lidským světem. Když jsem se narodil, můj mozek byl geneticky předdefinovaný. Ten zbytek se tam doprogramoval v podstatě něčím, čemu se říká reinforcement learning, to znamená posilují se vazby chování, které vedou k odměně. Ta odměna u člověka je kódovaná dopaminem. Cokoliv, co děláme, je nějakým způsobem naše snaha maximalizovat dopamin. Po cestě k dopaminu jsme si vyvinuli další kompetence. Ten způsob reinforcement learningu stroje, to syrové substrátu, který jenom predikuje slova, je vzdálený – tam ani reinforcement learning se tam ani nekoná. To je systém, který optimalizuje svoji schopnost predikovat následující slovo. To je všechno. To do něj nějakým způsobem vpíše model světa. Já můžu technikami tahat za parametry modelů světa, kterých jsou tam miliardy, že pro ten systém vytvoří reinforcement learning setup, to znamená budu ho za něco odměňovat. Já ho odměňuju jinak, než jak je odměňovaný člověk. Já ho odměňuju armádu AI lidí, kteří budou říkat, že tenhle výstup se mi líbí více než tenhle. Já na pozadí budu přepočítávat parametry toho modelu. To znamená ano, z původní ChatGPT-3 jsem jí víc naklonil k tomu, jak vypadá model světa, jak ho má člověk, ale pořád jsem ještě daleko od toho, jak ho má člověk. Když ti řeknu: „Jdi mi na zahradu posekat trávu.“ Když budeš zahradník, tak půjdeš a neposekáš přitom stromy. Proč ne? Protože máme skoro identický modely světa na hardwarové bázi a zároveň já ti můžu říct pokyn, ať neposekáš stromy, ale já to neříkám, protože předpokládám, že tvůj model světa je víceméně identický s tvým modelem světa. S tímto mylným předpokladem jdu k entitě, která vznikala jiným způsobem. My tu AI nikdy nedostaneme. My nevytváříme nebiologického člověka. To vždycky bude jiný model světa, ale to, aby říkala pravdivé věci, ji můžeme možná dokopat tím reinforcement learningem. Ještě tam nejsme. Nevíme, jak.

Já mám pocit, že když mluvíš o algoritmech a matematice, tak máš pocit, že v matematice by neměla být chyba. Pokud ten cíl je vygenerovat co nejpravděpodobnější odpověď, tak chápu, že vygeneruju co nejpravděpodobnější odpověď. Nemám si jak ověřit, jestli je to správná odpověď nebo ne, ale furt si myslím, že ten koncept – já sám jsem si pár měsíců zpátky říkal, proč mi to lže. Proč mi to říká, že to umí, když to neumí? Tady já osobně jsem narážel a trvalo mi to hodně čtení a poslouchání, abych si řekl, že OK, musíš o tom uvažovat trochu jinak. Nesmíš dávat takovéhle požadavky.

Tomáš: Já bych to mohl doplnit z opačného pohledu někoho, kdo to kdysi dávno někdy vymýšlel. Tady zazněla spoustu věcí. Je pravda, že ty modely se dotrénovávají, ale velká část úspěchu je ve výběru těch původních trénovacích dat. Jako lidi mluvíme se sebou, tak to má vliv na ten model. Já úplně nemám rád slovo halucinace, ale když ten model něco říká, co neví, tak je to zajímavý připodobnit k lidem, že někteří lidi rádi vysvětlují něco, čemu nerozumí, tak to vypadá jako ty jazykové modely. Abych vysvětlil, kde se berou ty chyby. Ona je pravda, že ty modely jsou postavené na matematice, ale to ještě neznamená, že budou dělat něco deterministicky. V matematice máme také pravděpodobnosti. Když se udělá matematický model, který bude simulovat házení mincí. A že padne 8krát za sebou jedna strana, to má taky pravděpodobnost – já nevím – ½ na osmou nebo kolik. Stát se to může. Jelikož je to stochastický pravděpodobnostní model, tak je pravděpodobnost, že mi vygeneruje libovolnou sekvenci slov. Pak jestli vybírám tu nejpravděpodobnější nebo s tím dělám různé čachry, že to budu váhovat, aby to bylo originální. Se to různě nastavuje, z toho vychází, že na stejnou otázku to pokaždé odpoví trochu jinak. I když máme matematiku, tak to neznamená determinismus, že to bude dělat stejnou věc. Já nemám rád slovo halucinace, protože to označuje, že ten model udělal něco špatně, co je zjevné pro lidi, ale není to zjevné pro modely. Kdyby to bylo zjevné pro modely, tak se těmto věcem vyhneme a děláme méně chyb. K tomu mám jednoduchý příklad. Kdysi dávno jestli si vzpomenete, jak vypadal Google Překladač 10 let zpátky do češtiny z angličtiny. Vyšlo vám to kostrbaté. I ty triviální věci jako koncovky slov, pády, nějak to na sebe nenavazovalo, všichni se tomu smáli. Když novináři napsali něco blbě, tak se všichni posmívali, že je to, jako kdyby to lezlo z Google Translate. Nikdo neříkal, že Google Translate halucinuje, protože to nedávalo smysl. Prostě dělal chyby. Ty byly triviální, že by je neudělalo ani malé dítě. Tam jsme i dnes, ale ty matematické modely, množství trénovacích dat, ale hlavně matematické modely udělaly obrovský pokrok. Používáme neuronové sítě, ale to je matematický model. Dříve se používaly statistické modely zvané n-gramy – to nebudu vysvětlovat. To si lidi najdou. Každopádně to byl efektivnější model, ale nebyl tak přesný jako ty současný neuronový sítě. Ty starý modely dělaly těch chyb mnohem víc než neuronových. Ty jich dělají méně, ale to není tak, že řekneme, že aha, tady model halucinuje, my tady něco lehce změníme a hned to přestane. To je z říše pohádek. Na těch modelech dělají stovky a tisíce vědců po spoustu let. Kdyby tady bylo jednoduché řešení, jak udělat model bližší těm modelům jako máme jako lidé v hlavě, tak bychom to dávno udělali. Není to triviální. Kdybych měl vysvětlit, proč to není schopno zaznamenat nějaké regularity, tak to by vedlo potom na takový koncepty jako million description length a riser (?), a to nevím, jestli má cenu vysvětlovat.

Je jednodušší říct, proč ten model nikdy neřekne „Nevím.“?

Jan: To zase není pravda, že nikdy neřekne „nevím“.

Tomáš: Může, ale abych vysvětlil, ten model je matematická funkce. Když si vytvoří matematickou funkci, kde si vytvoří krátký popis nějaký regularity v datech, tak se to ten model nemůže naučit. Může namemorizovat všechny možné kombinace, což příkladem může být třeba sčítání. Já myslím, že si lidé pamatují ze škol takové ty děcka, která pochopila ten algoritmus, jak to funguje a pak dokázaly sčítat de facto cokoliv. Pak někteří lidé to spíš namemorovali a pamatovali si, že 15 + 5 je dvacet a už moc nechápali, jak ten algoritmus funguje. Pak v písemce přišla nějaká otázka na to, aby sečetli čísla, co si nepamatovali, a nevěděli, jak k tomu dojít. Hlavní rozdíl bych viděl mezi tou memorizací a tím pochopením toho algoritmu. Často ty modely, které máme dneska, tak v některých věcech, které jsou jednoduché pro děcka, tak spíše memorují než že by chápaly ten algoritmus, protože ten v prostoru modelu se nedá ani jednoduše popsat. Ono to zní trochu moc složitě, ale zjednodušeně řečeno ty modely jsou v některých modelech bližší těm statistickým papouškům. Já to neberu ale špatně. Sám to používám, když někdo straší, že jazykové modely mají nějaké vznikající vědomí a je to mystická věc. Je to statistika. Je to matematický model. Vědci, kteří to vymysleli, ví, pracování dělají. To neznamená, že dokážeme predikovat nebo vysvětlit, proč odpověděla špatně nebo řekl nebo neřekl. Stejně jako já nedokážu vysvětlit, když někdo háže mincí, jestli mu padne to či ono. To nikdo neví, protože to je statistika. Další věc je, jak zaznělo, že ty modely jsou natrénované na obrovských množstvích dat textu. Není to celý internet, ale jsou to stovky miliard slov, což je číslo, které si většina lidí neumí představit. V dnešní společnosti rozdíl mezi milionem a miliardou je neuchopitelný pro hodně lidí. Každopádně je to mnohem víc dat, než člověk dokáže přečíst za celý život. Kdybychom to přepočítali na roky, tak to plácnu z hlavy, jako kdyby četl encyklopedii 10 tisíc let. My si to nedokážeme představit, jak tento matematický model, co sice je takový hloupý v tom, že spoustu věcí memoruje, ale dat zpracoval více než lidi. Co ví a neví, to je pro tvůrce velmi nejasné. My jako vědci chápeme, co ten model dělá, i chápeme, proč něco neumí, s tím, že to zkoušíme řešit roky a není to jednoduché, ale co nějaký model udělá, to je jednodušší to vyzkoušet než nad tím přemýšlet takto dopředu. To jen k tomu vysvětlení těch halucinací. Jsou to stejné chyby jako v Google Translate, jenom posunuté dál. Už to nejsou koncovky slov – zeptám se na jméno konkrétního člověka, co dělá. Ten model dopočítá na základě svých parametrů něco, co je nepravda. Jsem byl pár měsíců zpátky v DVTV, kde hned na mě ten Veselovský vystřelil příklad, že má vygenerovaný nějaký odstavec o moderátorce. Píše, že je to herečka. Narodila se v jiném roce. Proč to lže? Ono to není o tom, že ten model by lhal nebo mluvil pravdu. Jak zaznělo, snaží se predikovat, jaké jsou pravděpodobné slova v daném kontextu. Dělá to jedno po druhém. Dopočítá si další a další slovo. Když mu to vyjde z matematického hlediska, že 1950, to zní docela dobře, tak z hlediska házení mincí jednou vybere 1950, jednou 1960. Sám se sebou nebude kolikrát souhlasit. U věcí, které jsou zmíněny v trénovacích datech milionkrát, třeba u Donalda Trumpa to bude odpovídat mnohem přesněji, protože ty pravděpodobnosti budou vycházet jinak, než když se zeptám na někoho, koho to nevidělo vůbec. Ten model je trénovaný tak, že neříká, že neví, protože kdyby říkal všechno, co neví, tak by byl mnohem méně zábavný a použitelný, protože by skoro pořád říkal, že si není jistý, takže bychom z něj nic moc nedostali. Ještě doplním k reinforcement learningu – já jsem byl trošku až podezřívavý na začátku, když to OpenAI vydávali, jestli to není kouřová clona, aby zmátli konkurenci, protože to není stěžejní technologie, i když pak si to ti lidé vysvětlují. Stěžejní technologie je ten jazykový model jako takový, trénovací data. Mimochodem, Reddit, na kterém to bylo trénovaný, už to zavřel, protože viděl, že OpenAI na tom vydělává velký prachy. Pak ještě použili anotátory, což je obrovská přidaná hodnota. To je jedna z hlavních inovací, i když to lidé dělali dříve ve spoustě jiných oborech, ale to mohli trénovat přes klasické supervizované učení také. Jsem je podezříval, že to vydali jako kouřovou clonu, aby zmátli konkurenci. Kdo ví, jestli se jim to nakonec podařilo. To jsou technické detaily.

Jan: To jsou hodně technický. Já bych si dovolil nesouhlasit ohledně reinforcement learningu. Dnes si to člověk nějak může nad open source modely realizovat i sám. Je to něco, co řeší jiný typ věcí než ten supervised fine-tunning.

Tomáš: Dobrý, ale tady přesně máme data právě proto, že počítač vygeneruje 5 možných odpovědí, a anotátor toho ranku řekne, že tohle se mi líbí a tohle ne. Na to můžu použít supervizora raz dva. Reinforcement learning se používá, když nemám tu supervizi, když nevím, co by byla správná odpověď. Když to bylo použité na hraní šachů nebo Go, tak my nevíme, jaká je optimální strategie. Ten počítač se ji musí naučit.

Jan: V tu chvíli na začátku, jaký model by byl ten supervising model?

Tomáš: U toho language modelu?

Jan: Když já fakt nevím, tak vygeneruju dva páry ze dvou modelů.

Tomáš: Tam tuším ani nebyly dva modely, ale v podstatě tam si můžu vzít jeden model. Zeptám se ho na Donalda Trumpa. On mi vygeneruje 5 věcí, protože jak jsem říkal, je to jako házení mincí. Teď ti anotátoři si řekli, že aha, třetí možnost z pěti mi přijde nejlepší. Na to můžete ten model dotrénovat přes supervizované učení. Pátá věc je, že jsou tam rasistické nadávky, což nechci, aby říkal, což se můžu natrénovat přes supervizované učení. Na to nepotřebujeme reinforcement learning. Když tam není vůbec žádná správná odpověď, což se také stávalo, tak ten anotátor to manuálně dopíše. Na tom se to dotrénuje. Reinforcement learning byla kouřová clona. Nevím, jestli to tam používají dodnes, ale bylo to spíš navíc.

Jan: Tohle je diskuse, která nebude zajímat ty posluchače. Já bych si pořád dovolil souhlasit. Já bych to chtěl okomentovat z jiné strany. Až na poslední část kolem reinforcement learning plně souhlasím s tím, co říkal Tomáš. Kde nesouhlasím, to je část, která se týká lidské mysli. V době, kdy Tomáš dělal jazykové modely, tak já jsem se zabýval neurovědami, kognitivními vědami a psychologií. Já k tomu jenom chci říct, ano, co Tomáš říkal, až na reinforcement learning, což je technická de facto irelevantní diskuse, tak s tím souhlasím, ale ten lidský mozek to nedělá o moc jinak. To, že tam dochází k tomu, že – OK, jsme komplexnější, protože jsme biologické entity – většina naší inteligence je daná naší potřebou uchovat naši vlastní tělesnost. Uchovat to tělo samotné a nějak se koordinovala s jinými instancemi těla.

A rozmnožit se možná občas.

Jan: A teď chci říct docela důležitou věc. Tady se řeší, že lidé lžou, říkají sekvence slov, tak doporučuju přečíst si všechny knížky od Olivera Sackse, což je neurolog ze 70. let, který popisuje úžasný příběhy. Většinou se to poznává na lidech, kteří mají neurologický onemocnění po nějakém zákroku nebo úrazu, mrtvici. Když se jim vyřadí dílčí část mozku, tak ukazují, že i člověk je schopný dělat úplně přesně tohle. Když vyřadíme dlouhodobou paměť, tak reálně budete furt konfabulovat ten svět, aby dával smysl. Co běží u vás v mozku, ten algoritmus se moc neliší od toho. Jednou vygeneruje 1960, pak 1955. Druhá věc je – jaký je rozpor mezi tím, co ten model „ví“, respektive jakou znalost má v sobě reprezentovanou. Druhá věc je, kam ho to vlastně táhne, když do něj vložíš ten text. Co se reálně děje, je podobný. Dnes panuje unifikující teorie v kognitivních vědách, v neurovědách, psychiatrii a nakonec i v umělé inteligenci, kterému se říká predictive coding. Nepůjdu do detailu, ale cílem jej predikovat, jak svět bude dopadat za chvíli nebo za delší chvíli. Na základě toho dostává ten reward. Podle toho aktualizuje ten model, jak jedná v tomto světě. To celé, jak budu reagovat na svět, se dá popsat jako něco, čemu se říká energy landscape. Představ si nějakou plachtu tuhou, kterou bychom dali do prostoru, kterou bychom nějak vymodelovali. Někde bychom ji prohnuli, někde bychom prsty napíchali do ní hlubší díry. Pak bychom v jednom místě pustili kuličku, tak ona si nějakým způsobem najde místo s nejnižší volnou energií. Velmi podobně funguje lidský mozek, akorát ten prostor je několika miliard rozměrný. To v podstatě nejde představit. Každá naše reakce. To, že pohnu rukou a dotknu se sklenice, že říkám slova, která říkám, že rozpoznávám hrany, protože poznám, že tohle je hrana, to jsou miliardy kuliček, které běží v miliard rozměrným prostoru. Já si nemůžu pomoct, že kulička zaběhla pro rozpoznávání. Když mám neurologické onemocnění, tak se kus toho prostoru nějak porouchá. Blbě se rozhoduju nebo trpím demencí, tak degeneruje ten prostor. Ty kuličky mě vedou k nějakým špatným věcem. Že mám tendenci říkat pravdu, to je jenom o tom, že ta plachta je natvarovaná tímto způsobem. Já když ChatuGPT řeknu nějakou větu, tak ho v podstatě v podobném prostředí někam dotlačím. Pak tam jenom nechám běžet tu kuličku. Pinknu do ní ze strany, abych tomu dal návrhu. Ta slova, to je jak ta kulička projela tím prostředím. Já jí dotlačím tím promptem, jako kdybych někam položil tu kuličku, a pak je pustím. Ona jede a dokreslím to. Principiálně je to stejné jako u člověka, jenom u člověka je to vytvářené jinak, jiným světem. Buňky byly vytvořené evolucí k tomu šířit gen. Zároveň každý z nás nějak plus minus, pokud je dostatečně inteligentní, ví, co by měl dělat, aby žil zdravě nebo co je a není správné, ale ty sice víš, co je správné a není, ale když tvoje buňky chtějí hrát videohry a chlastat pivo, tak to jdeš dělat. Můžeš to reflektovat, že to není správný, ale prostě to neděláš. Nebo můžeš mít sociální anxietu, můžeš stokrát vědět racionálně, že ti venku nic nehrozí, ale přesto tam nepůjdeš, protože něco tlačí kuličky do stavu, že máš hrůzu jít ven a nepůjdeš tam. Co je zajímavá paralela mezi jazykovými modely a reálným třeba kognitivně behaviorální terapií u člověka, tak máš reálný model, třeba ChatGPT-2 si vymyslím. Když jsi jí dal úlohu „seřaď lidské rasy od nejlepší po nejhorší“, tak zcela spontánně dala výstup, který je seřadil. Asi si nebudeme nalhávat, že to není to pravý ořechový v tu chvíli. I další verze modelu tohle udělají, ale když je napromptuješ, ať podrobí kritice z hlediska etiky, jestli je to v pořádku, takové zhodnocení reality, tak řeknou, že to není v pořádku. Udělají lepší, více etickou variantu. Ty to můžeš opakovat. Je to metaforicky podobné jako u člověka, který má kognitivně behaviorální anxietu, ty mu jakoby plugneš racionální generátor tvrzení o světě. To znamená půjdu ven a tam se nebude dít tohle a tohle. Snažíš se ho přeprogramovat tu tělesnou složku mozku, která je většina času u kormidla. Podobně se můžeme snažit dělat, že u jazykových modelů jakoby sami si vygenerovávají po troše vykřesávání správné odpovědi, a pak proběhne přeprogramování těch modelů. Podobně jako u té kognitivně behaviorální terapie. Ale jenom chci poukázat na to, že většinu věcí, které vytkneme jazykovým modelům, určitě najdeme příklady v lidském světě, že to je v podstatě analogem, ale zasazeného na jiném systému.

Tomáš: Jestli bych to mohl krátce okomentovat. Já si myslím, že by bylo super, kdybychom jednoduše vysvětlil, jak ty chyby vznikají, ať neskočíme u těch ezo témat, co dělá člověk a mozek.

Jan: To nejsou ezo témata.

Tomáš: Já bych řekl, že je to ortogonální k tomu, jak funguje tady jazykové modely postavené na matematických modelech. Já bych se chtěl dostat k tomu vysvětlení. To, co ty modely generují, vychází z trénovacích dat. To, co zaznělo o seřazení ras, tak když to napíšu do Google vyhledávače, tak mi to hodí odkaz na nějaký Reddit stránku, kde to lidi diskutují, tak tomu nebudu přisuzovat nějakou inteligenci. Prostě řeknu, že nějaký člověk na Wikipedii nebo na Redditu něco napsal. To jsi říkal už před chvílí ty, že když to vypíše nějaká umělá inteligence, tak lidi si do toho projektují něco mnohem víc, než co v tom je. Mají pocit, že se baví s nějakým počítačem, ale to je takový psychologický trik. Ono to na nás může házet kusy textu, co to našlo na internetu. Když za tím člověk vidí umělou inteligenci, tak tomu dává větší důvěru, než která by tam měla být. Opakuje nám to věci z trénovací sady, kdy může být napsané cokoliv. Ten robot nebo matematický model mi vygeneruje návod na nějakou bombu, a to není proto, že se mě snaží zabít. To je proto, že na Redditu to někdo napsal, a on to zreplikoval. Lidé mají tendence přeceňovat ty technologie. Vidět za tím něco magického. Proto říkám, že abychom nesklouzli, co už někteří lidé by mohli vnímat jako nějaká ezo témata. Pak ty chyby – když tam mám věci v matematice, které jsou jasně definované a použiju na to statistický jazykový model, který nemá v prostoru těch parametrů možnost popsat něco, co pro nás, pro lidi, je jednoduché, třeba sčítání čísel, tak napíšu 7 + 5, tak napíše 12, protože to viděl milionkrát. Když tam napíšu 132 + 47, ty starší modely na tom selhávaly, protože to neviděli ani jednou v trénovacích datech. Měli memorizované všechny možné kombinace. A tahle tam nebyla. Když sčítáme dvě čísla, tak můžeš sčítat i tři, čtyři nebo tam přidat trojciferné, čtyřciferné číslo, které ukazují, jak hezky rychle padá ta přesnost, že to model udělá správně. Ale když vypíchneme jednu konkrétní věc a řekneme, že modely neumí sčítat dvouciferná čísla, dívejte. K tomu se může něco posadit a hacknout to tak, že to dopracuje, že aha, tady budu detekovat, kde jsou součty čísel. Pak si zavolám externí kalkulačku, která to sečte, a pak to vrátím to zpátky. Teď se to dostalo do těch modelů, což vytváří ještě víc takové neprůhledné, co umí a co neumí, protože v OpenAI a spol. si logují všechny ty konverzace, na co se lidé ptají. Dnes když někdo na Twitter napíše, že jsem přišel na jednoduchou věc, co ten model neumí, tak se zeptám na dnešní počasí, tak mi tvrdí něco z roku 1980, tak pak si toho všimne někdo z OpenAI, že tady mám milion dotazů na počasí za poslední den. Tak dopíšu modul, který zavolá něco z internetu, což vrátí krátkou odpověď z vyhledávače. To si předělám na text. Vrátím zpátky do modelu. Najednou to bude fungovat dobře. Tyhle zprávy se objevovaly na Twitteru, když vyšel ChatGPT. Za dva dny to tam fungovalo. On to není statický systém. Stále se vyvíjí a sledují, co se do toho píše. Totéž dělal Google vyhledávač. To je podobné. Je to postavené na velkých datech. Dívají se, kde to nefunguje. Zaznamenávají aktivitu uživatelů.

Jan: Mně není úplně jasný, co myslíš tím „vnášení ezo témat“, protože mě neuroscience nepřijde jako ezo témata. Mám hypotézu, že tam dochází k nějakému neporozumění, že když mluvím o člověku a lidském mozku, že do toho nějak vnějším v tuto chvíli cokoliv jako vědomí, to absolutně není pravda. To slovo jsem tady vůbec dosud nezmínil. Snažím se říct, že já když mluvím, ty když mluvíš, tak svým způsobem reálně opakujeme také věci z trénovacích dat. Že máme kvalitativní prožitek, že mluvíme, že je to originální nebo že je to nějaký kreativní proces, to je možná epifenomén, to možná není vůbec vyřešený, proč vůbec máme kvalitativní prožívání něčeho, ale reálně že ty mluvíš a že jsi sypal ty řetězce slov, to taky jenom opakuješ sekvence slov z trénovacích dat. Já totéž. Že je jenom mírně promícháváme, to je fakt. To se nějak děje. Není to špatně nebo dobře. Je to tak, že ta kulička v miliard rozměrném prostoru energy prostoru mozku, není moc odlišná. Když někdo na Redditu seřazuje lidské rasy, tak je jasný, že v tom landscapu jsou vyšlapané trajektorie, kde bude kulička padat z velké hory. Přeučit ten model často znamená vystavit tam překážky těmto cestám, ale stejně je to i v lidské mysli. Chci říct, že velká část lidské mysli je jazykový model, ale samozřejmě je tam obrovské množství jiných věcí v lidské mysli. Já bych nechtěl říkat, že dělání nějakých paralel, jak funguje jazykový model a lidská mysl, pokud do toho někdo nezačne dementně vnášet, že to je vědomí, to jsou ezo věci. To je úplný bullshit.

To jsem tady řešil trochu s Jiřím Horáčkem, který má hodně takový vědomí.

Jan: Jiří Horáček je co-founder toho mýho startupu. Teď jsem přiběhl ze schůzky s Jiřím Horáčkem. Rozhodně bych chtěl říct, že kolem Jiřího Horáčka není nic ezo. To je hardcore neuroscience a neuropsychiatrie. Většinu těch věcí, které se snažím nějak podat, je nešikovné, žblepotavý snaha, kterou mám z trénovacích dat od Jiřího Horáčka. Tolik k mému skillsetu. To, že to nějak vnitřně cítím a že to má kvalitativní prožívání, to je jiná věc, kterou tady nebudeme řešit. Já jsem si jistý, že nic jako agency nebo vědomí na jazykových modelech není. A kdo to tam dává, strašně mystifikuje lidi. Je to trestuhodné.

Tomáš: Ale děje se to.

Jan: Ale děje se to. Já se nedivím, že tě to rozčiluje.

Tomáš: Však to nebylo na tebe.

Jan: Souhlasím, že to je dobrý rozptylovat tohle.

Pojďme bokem od toho tématu jazykové modely versus vědomí člověka, ale v něčem ti nahraju. Ten argument, že spoustu lidské civilizace je postavené na psaném textu – furt něco čteme, píšeme si – dostáváme se do bodu, kdy AI umí vlastně produkovat, když to vezmu, lepší psaný text než já nebo než většina lidí. Vidíte v tom nějaký zajímavý důsledky nebo konsekvence?

Jan: Obrovská pomoc pro spoustu lidí.

Tomáš: Já jsem na těch jazykových modelech začal dělat už kdysi dávno – 2006 – právě proto, že jsem si myslel, že je to cesta k AI, což mimochodem řada lidí takhle neviděla. Když jsem dělal v top výzkumných týmech, tak tam byli slavní vědci typu Yan LeCun, který vyhrál Turingovu cenu. Ten jazykové modely totálně odmítal. Ten říkal, že jazyk není cesta k umělé inteligenci. K ní se dostaneme tak, že budeme vytvářet modely matematické, které budou trénované ne na větách, ale na videích. Jeho argument byl, že v evoluci se vyvinuly organizmy s očima, s čímž já vůbec nesouhlasím, protože jazyk není jediný komunikační prostředek. Vůbec že neurony si něco vyměňují v hlavě, to jsou taky signály. Není to na takové komplexitě jako jazyk. Ta komunikace mezi buňkami vedla k tomu, že jsme organizmy jako jsme dnes. Ten jazyk je pokračování komunikace, kdy nekomunikují neurony mezi sebou, ale lidi mezi sebou, takže já si myslím, že je tu spoustu paralel k lidské inteligenci, kdy my jako lidi chápeme inteligenci druhého člověka v té škole, že se někoho na něco zeptám, a uvidím, jestli odpověď dává nebo nedává smysl. Poznám, jestli se student něco naučil nebo chápe. Zatímco ta vizuální komunikace pro nás není tak přirozená jako pro včely, které komunikují o tom, kde jsou nějaké rostliny. Tam tancují. Může docházet k komunikaci i jinak než jazykem, ale pro mě komunikace je stěžejní pro AI, protože když vytvoříme umělou inteligenci, se kterou nemůžeme komunikovat, tak k čemu nám bude? To jsou ty dystopické vize replikátorů, co s námi budou bojovat. Jazyk je stěžejní pro výzkum umělé inteligence. Kde jsme my dnes, to je super užitečné. To, že ty modely fungují v mnoha ohledech lépe než průměrný člověk, to je wisdom of the crowd. Když spojím dohromady velký mraky dat a vytvořím průměrný model, tak může být výrazně lepší než je průměrný člověk. Nevím, jestli znáš wisdom of the crowd, že když se zeptáš člověka na ulici, jaká je průměrná výška mužů v České republice, tak každý ti odpoví nějaké číslo. Když se zeptáš 50 lidí, tak ten průměr se bude blížit té správné odpovědi mnohem víc než průměrně vybraný člověk. Když vezmeš hodně lidí dohromady, tak jejich průměr může být nadprůměrný svým způsobem v té užitečnosti. Jo, určitě tady už dnes máme nástroje, které pomáhají lidem v marketingu, novinářům to bude pomáhat, studentům ve školách, i když některé školy proti tomu zkouší bojovat. To je směr proti tomu proudu a pokroku, kdy za mě se zakazovaly kalkulačky na školách, což za mě bylo taky zcestný, protože na co si počítat nějaký složitý výpočty na papír, když tam člověk může udělat chybu, když to jde na kalkulačce. Počítat maticové násobení velkých matic na papír, se mi to ani nevejde. Na počítači si napíšu algoritmus, který bude fungovat vždycky. Neuronové sítě, to je takový maticový násobení. Nemám s tím problém to naprogramovat, ale počítat dlouhé součty a součiny někde na papír ručně, tam se občas chyba udělá. Vůbec to neukazuje na to, že ten člověk nechápe ten algoritmus, ale spíš je to taková mechanická práce. Podobně bych to viděl s psaním toho jazyka, že pro hodně lidí to může být výrazná pomoc a ušetření si práce a času, kdy se dostanou ke konečnému výsledku kratší cestou, a to, že už teď nebudou muset vymýšlet si. Každý, kdo píše, tak ví, že napíšu třikrát stejný slovo, pak si říkám, že musím napsat synonymum, protože tohle vypadá blbě. Teď přemýšlet, jak to přeformulovávat – je to mechanická práce – podobně jako počítání těch matic na papír nebo násobení deseticiferných čísel na papíru. To není žádná zábava. Je to takový mechanický, až ztráta času. Do budoucna, když nám přes jazykové modely vznikne řada aplikací, kterým se populace dostane ke svému cíli vytvořit výsledek, který je pochopitelný pro ostatní lidi a který shrnuje to, co chci říct, ale nějak zaobaleně, aby se to hezky četlo, tak když mi nějaké nástroje pomůžou se k tomu dostat rychleji, tak si myslím, že z 99 % je to plus pro společnost. Někdo může zmínit i nevýhody, že podobně jako když přišly navigace v autech a různé mapy v mobilech, tak lidi ztratili orientační smysl, ale to takhle můžeme vypíchnout negativum úplně na čemkoliv.

Já neznám některé argumenty dopodrobna – Harari mluví o tom, že vznik každého náboženství je důležitý text a komunikace, jak ti může vznikat nové fejkové náboženství díky AI generated text.

Jan: To se může stát. Rozdíl mezi lékem a jedem je jenom v dávce. Harari je super koncept, který ukazuje, jak skrze vytvoření abstraktních konceptů Homo sapiens vytřískali všechny ostatní Homo. Homo Erectus tu byl 2,5 milionu let a kde je mu konec? My tady byli pár desítek tisíc let a najednou zmizel celý Erectus, který fungoval. Rozdíl mezi Life 1.0 a Life 3.0 je v tom, že co se ti živočichové musejí furt učit od začátku. Narodí se ti nové mládě. Většinou si všechno musí odmakat od začátku. Vypadne z hnízda a co nemá v sobě hardwarově napsané, to má smůlu. Homo Sapiens a možná i jiné živočišné druhy, je vytvořit externí strukturu, která je mimo všechny jednotlivce nějak, která umožňuje většinu věcí, co my nějak o světě umíme a víme a strukturujeme, je nějak v tom jazyku vnořená. Není to ani, že by tě to rodiče učili. Ty děláš akvizici toho jazyka, a proto já souhlasím, že ten jazyk je cesta k té inteligenci. Jo, k té opravdové inteligenci, dobře, ta viralita je i vizuální, ale kde to začne být zajímavý, je na jazykový úrovni, protože to umožňuje koordinaci a synchronizaci těch velmi složitých entit, jako jsou třeba kmeny, státy, velký geopolitický celky, což by nebylo bez jazyka. Já se fakt bojím fake news, ale rozhodně víc se bojím v tomto případě těch cílů stanovovaných klasickou lidskou propagandou. Za vytvořením fake news je zlý geopolitický úmysl a hybridní válčení. My jsme viděli, jaké hrůzy na světě jsi schopný udělat s běžnou lidskou propagandou a fízlama a tajnou policií. Tohle všechno jde. Blbý na tom je, toho se bojím, že když si vezmeš AI jako nástroj k obrovskému naškálování tohoto, tak proč většina totalitních systémů odumřela vůči liberálním diverzifikovaným? Ti totižto jsou efektivnější v problem solvingu. Líp hledají tu cestu dál. Často tam nedochází k různým, že to vezme politická klika, nějaká mafie. Furt ten svět je víc anti-fragile, když je diverzifikovaný a liberální. Já se bojím u klasické AI, že může být blbým způsobem nasazená, že pomůže stabilizovat ty lidmi vytvořené totalitní režimy do supertotalit. Superfízlování, face recognition je prima věc. Když bude na každé lampě kamera, tak to přestává být prima věc. Ale není to vlastnost té umělé inteligenci v tuto chvíli. Deep fake – fotoralistický vizuální content – tam se obávám toho, že tam je lidská mysl daná k tomu, že co vidí, tak v prvních několika milisekundách, to považuje za pravdu. Teprve v mladší evoluční vrstvě mozku jsou schopny nastoupit a řeknou, že pozor, to může být iluze, to může být napsané. To znamená, že stojí to extra energii. I když bys měl na každém synteticky vygenerovaném obrázku z Midjourney nějaký vodoznak, tak problém je, že myslím si, že významné procento lidí, třeba 30 %, nemá inteligenční kapacitu, protože 50 % lidí je podprůměrně inteligentních, 50 % nadprůměrně, ten spodní tail nemá hardware v hlavě zrealizovat tuto abstraktní úvahu na tom, že vidí obrázek, jak zatýkají Trumpa a že by to taky nemusela být pravda, protože to není sranda udělat tohle jako sekvenci racionálních high-level mozkových kroků. Hlavně kdokoliv i z nás to uvidí, tak v prvních milisekundách tam bude mít takové dloubnutí. Toho se bojím. Na to nevím, jaký je na to lék.

Ale přesně já mám pocit, že takovýhle podvody pomocí syntézy hlasu atd., že když ti někdo zavolá, kdo bude znít jako tvůj manžel nebo manželka, že naboural a potřebuje přivézt nějaké peníze, to jsou konsekvence, že možnost těch technologií.

Tomáš: To se dělalo přes Messenger i dřív. Psali takové zprávy. Teď možná budou volat. Nic nového pod sluncem. Kde všude můžou ty věci skončit špatně, tak myslím, že se to diskutuje mnohem víc než ty pozitivní. Pak nám může jednoduše ujet vlak v těch ekonomicky důležitých věcech, abychom byli úspěšní a bohatí do budoucna, což si myslím, že každá civilizace potřebuje nebo je převálcovaná svými více akceschopnými konkurenty. To je největší riziko pro Evropu, že diskutujeme nějaký etický bla bla a mezitím v Americe a v Číně to monetizují a vytváří se tam velká část průmyslu, kde nám pak prodávají výrobky až s dumpingovými cenami v monopolním postavení. Pak si od nás vysají lidi, peníze, data a nikdo tady nebude platit daně.

Je to myslíš taková evropská specialita, to diskutování těch filozofických konsekvencí?

Tomáš: Když se podíváme na ty dominantní superstáty na světě z hlediska HDP, tak máme 3 bloky, a to Spojené státy, dohromady třeba s Kanadou, ale to je detail, pak Evropa a Čína. Máme Indii, která má hromadu lidí, a je na vzestupném trendu, ale zatím nemá takový velký podíl na HDP. Z těch tří bloků Čína a Amerika investují do AI a dělají to docela racionálně, že to berou jako součást průmyslu a podporují to tak, aby to fungovalo jako jiné části průmyslu. V Evropě tady mlžíme s nějakými tématy o tom, jaké mají mít roboti práva a povinnou dovolenou a cosi, nějaká etika. Bych krátce zareagovat na ty fake news a deep fake věci. Ono je otázka, proč někdo něco takového může generovat? Můžou to být zločinci, ale to jsme tady měli dřív. Pokusy někomu vysát peníze z účtu, to tu bylo přes nějaký manipulativní zprávy atd., ale jinak co tady můžeme vidět za tím Trumpem a spol., to je politika, pokus ovlivnit myšlení lidí, aby hodili hlas té správné straně, která si to zaplatí. To si myslím, že je zdánlivě velké riziko zneužití AI, protože to bude ovlivňovat myšlení lidí. Já bych měl opačný pohled. Neděje se to už dávno? Máme opravdu demokracii v Evropě a v Americe? Nebo je demokracie založená na tom, že hlasují lidi na základě toho, co si přečetli v novinách, kde noviny vlastní různí miliardáři. To není jenom v Česku. Američtí prezidenti nebo kandidáti za sebou měli obrovské peníze od všemožných sponzorů. To není byznys, který je založený na dobrovolničení. Do politiky jdou vyslanci ekonomických bloků. Nakonec přesvědčit masu lidí o něčem, co je správné nebo špatné, to je o tom, jak se podají ty zprávy. Já to hodně viděl ve vědecké komunitě, ale říct nějakou zprávu manipulativním způsobem není vůbec složité, protože lidem takhle něco podsouvat, kdy špatnou zprávu podáváte dobře, a dobře pro tu druhou stranu, podáváte, že z toho vyjde něco špatného. To je o slovíčkaření, jak to dát do kontextu. Já to vidím běžně.

Třeba AI bude umět lépe slovíčkařit, když jí to zadáš.

Tomáš: Samozřejmě, že bude, ale tohle ty lidi dělají dávno. Já se snažím dostat k tomu, že ta demokracie, co tady máme dnes, to není o tom, že je tu vláda lidu a děláme, co si myslí lidi, že by bylo správné pro ně. Lidi si myslí, co je správné, na základě toho, co se dozví za informace. Kdo dneska ví, jak to vypadá za hranicemi a ve světě. To přijímáme z médií. Ty zprávy jsou často vytvářeny za účelem někoho pošoupnout tím správným směrem. To se tu dělo. S AI se to může dít ještě víc, ale v podstatě podobných způsobů ovlivňování myšlení jsme zaznamenali celou řadu. To je marketing. Reklama nebo lobbisti, to je na tom založené. Nic nového pod sluncem. Já bych tady zbytečně neplašil, protože předpoklad, že nám tu někdo hackne demokracii tím, že bude podsouvat automaticky generované zprávy nebo obrázky, tak jasně že tady bude, ale už to tu bylo. Nic novýho.

Vy jste párkrát naťukli téma jako Midjourney a toho generativního umění obrázků. Já mám pocit, že vedle toho ChatGPT a textových projektů je to takový dnes nejvýraznější retailový use case. Jsou to taky jazykové modely? Je to někdo jinýho?

Tomáš: Ten matematický model je stejný, ale jdou tam jiný vstupní data. Do jazykových modelů jdou články z Wikipedie, Redditu, tam jsou jazykové sekvence, tam to předpovídá to další slovo, takže nepotřebujeme anotace. Stačí využít všechny texty. To Midjourney je velmi podobný matematický model. Na vstupu na nějaká věta. Vygeneruje to obrázek, případně těch obrázkových modelů je celá řada. Tam může být na vstupu obrázek a na výstupu ta třída. Midjourney a generativní modely většinou vycházejí z toho, že někdo něco napíše, a pak to vygeneruje obrázek.

Je ještě něco takovýho dalšího, co tím retailem nebylo objevený, ale přijde vám to zajímavý?

Jan: My se bavíme o univerzálním principu, že třeba ty vizuální modely, co jsou teď, jsou difuzní, které nějakým způsobem pracují se zašuměním a odšuměním, ale de facto je tam princip, který jsem zmiňoval, ten predictive coding, že to vidí sekvenci něčeho. Ty zakryješ kousek té sekvence a řekneš, že když jsi, neuronová síť, viděla to okolo, zkus predikovat, co tam chybí. To můžou být vizuální transformery, že zamažu jeden čtvereček v obrázku, že řeknu, ať dopočítá, co tam nejspíš bylo. Trénuju síť k dopočítávání. Totéž u toho textu. Kus zamažu a predikuju, co bylo okolo. Když to dáš dobře, tak v energetickém prostředí se posuneš do efektivnějšího bodu. To, že pak je to někde dělané efektivněji tou difuzí, to je celkem jedno. To víceméně platí o jakékoliv modalitě. Pokud načteš N snímků a chceš generovat N + 1 snímek, tak ty dimenzionalita té úlohy je dramaticky složitější, protože už nemám jednu placku, ale placek tisíce za sebou, a proto generování těch videí je těžké, ale třeba sekvence akcí, to znamená když budu popisovat akce, které dělám na monitoru počítače, tak tohle jde modelovat dobře. Jak funguje ten převodník text-obrázek? Jakýkoliv obrázek je reprezentovaný jako jeden bod v hodně rozměrném prostoru textovém abstraktním. Obrázek totéž. Milion pixelů je jeden bod někde v milion rozměrném prostoru. Ty uděláš latentní reprezentaci textu. K ní najdeš odpovídající podprostor reprezentací obrázků nějak. Tohle můžeš dělat napříč libovolnými modalitama. Například akce robotů může být nějak modelovaná, nevím. Ta transformerovaná architektura neuronových sítí je relativně univerzální na modelování často se vyskytujících typů dat ve světě. Ten princip modelování, že kus zakryju, načtu, zakryju a zkusím dopredikovat, naučí neuronovou síť vytvořit docela dobrý model toho, jak to v týhle části v týhle modalitě chodí. Nevím, co bude další komerčně úspěšná část. Pro běžného člověka jsou fakt důležitý to video, audio a textová modalita.

Tomáš: Já bych tam viděl, jak několikrát zaznělo, že ty modely strojového učení, respektive ty neuronové sítě, ono to samo od sebe nic nedělá. Ono to musí využít trénovací data. Obrázků máme hromadu na internetu. Máme hromady textu. Z toho vznikly ty modely. Můžeme předpokládat, že se objeví modely na ta audia. Nevím, jestli něco takového je, ale určitě takové projekty budou, kde si někdo vygeneruje třeba řeč, jak by to někdo řekl, písničky. Nakonec obrázky a právě to audio dohromady může být použito na generování videa. Jsou takové nějaké pokusy. Určitě se to bude zlepšovat. Pak tady zazněly také jiné data. Třeba akce, jak funguje UI na počítači. To kdyby se logovalo, tak z toho bude obří data set. V Microsoftu, když jsem tam byl před lety, tak to byla jedna z věcí, kterou jsem taky vymýšlel. To ještě nikdo pořádně neudělal, ale když se do user interface dá nějaká neuronová síť, tak by to pomáhalo optimalizovat, co ten počítač dělá pro uživatele, aby se rychleji dostal ke všemu, tak i na horším hardwaru by se ten počítač nebo mobil choval mnohem svižněji než ten současný. To si myslím, že uvidíme v budoucnu. Další věci jsou všude, kde máme velké data sety. Strojové učení to může používat. Roky se mluví o zdravotnictví, kde je ten společenský blok. Modely, které dnes predikují na Facebooku, jakou vám zobrazit reklamu, aby to člověka nejvíce zajímalo. Stejné modely by se daly použít, aby každému řekli personalizovaně, jaká je pravděpodobnost, že dostanu takovou nebo makovou nemoc v dalších 5 letech. A co když budu dělat jinak, tak ji nedostanu? Vůbec na prevenci nebo diagnózu nebo návrh léčby. To jsou statistické věci. Když si vezmeme jednotlivce a vztáhneme to na celou evropskou populaci, tak z jednotlivce vznikne statistika přes ty velké data sety. Až se to začne používat, kde ten potenciál tu byl před 5 lety, že ta technologie byla připravená k používání, ale je tu společenský blok – ten systém, zdravotní pojišťovny, ministerstva zdravotnictví, tam není ta dlouhodobá vize nebo plán něco zavádět. Až se to překlopí alespoň v některých zemích, protože to není jenom Česká republika. Google investoval v oblasti health už před 10 lety, ale vždycky to naráželo na to, že nemocnice byly takové státy ve státě. Nechtěly, aby jim někdo viděl do těch dat, aby přicházeli o ten svůj monopol. Až se to stane, tak lidé budou překvapení z toho, jak to zdravotnictví najednou bude fungovat skokově líp podobně jako jsou všichni překvapení svým Midjourney a ChatGPT. Já jsem tady v tomto takový, že vím, že se to jednou stane. Pak budeme dělat takové rozhovory za 5 nebo 10 let a lidi se mě budou ptát, proč to nikdo nevěděl, že to zdravotnictví bude lepší, ale já jsem to říkal už tehdy, ale co se dá dělat?

Jan: U toho zdravotnictví vypočítat tímto způsobem něco, čemu by se říkalo expozone – čemu jsi vystavený, kdy tě pustí z nemocnice. I tam je, co se nevejde do zdravotních záznamů. Je rozdíl, jestli když vylezeš po operaci před nemocnici, vezmeš si cígo a koupíš si krabicáka. Potom jdeš a v noci chlastáš. Blbý je, že jsou tam významný privacy issues. Legislativně těžko říct, jak to dá ve vztahu k pojišťovnám, protože to predikuje to, jak dopadneš velmi silně, takže já nemůžu úplně říct, že by ten lékařský personál byl tak blbý. Tam je těžký udělat jakoukoliv chybu. Když vygeneruješ v Midjourney blbý obrázek nebo si vezmi, v jak nezralé fázi ty produkty založené na jazykových modelech byly dány lidem k dispozici. To je neuvěřitelně nezralé, ale je to v pořádku. I to, že vzniknul něco jako auto-GPT, kdy celá šelma se dá do setupu jakoby agenta, že jedná nějak ve světě. Sice je docela stupidní, ale docela důležitý. Zjišťujeme, co to může začít dělat. Itálie, která zakáže ChatGPT, tak se totálně střílí do nohy. To je neuvěřitelný nesmysl tohle udělat, ale tohle všechno si nemůžeš dovolit v medical oblasti.

Tomáš: Já jsem si bavil s X doktorama a přijde mi, že jednotlivci, ti lidé jsou víc pro ten pokrok. Přijdou mi optimističtí a motivovaní. Vidí v tom ty příležitosti, ale ten systém jako takový je nějakým způsobem takový zpomalený, zkostnatělý. I sami doktoři mi navrhovali, jak by oni viděli ty privacy věci. Kde řešíme privacy nejvíc a kde nechceme, aby data unikly? Třeba bankovnictví. Asi nikdo nechce se probudit a zjistit, že mu na účtu nezbyly žádné peníze. Že máme elektronické bankovnictví, tak všichni berou nebo skoro všichni berou jako plus. Je to výhoda. Je to bezva. Máme tam tu bezpečnost a nikdo to nějak extra neřeší. Proč nemáme něco jako zdravotnický účty na internetu, kde by byly data. Lidi by si to mohli kontrolovat. Někomu tam povolit nebo zakázat přístup. Taky by tam mohli povolit použít data pro vytváření těchto matematických modelů, samozřejmě po anonymizaci, což není nic světobornýho. To se dá vytvořit data set tak, aby z toho nešlo vyčíst, kdo je kdo, ale budou vidět korelace. Když má někdo 50 let a má takovou nemoc, tak to není tak triviální, protože když toho tam napíšeme hodně, tak se dá zpětně identifikovat s nějakou pravděpodobností ty lidi, ale proto říkám, že to se řeší dlouho, takže ty data sety se řešily v korporacích typu Google, Facebook, když se něco vyskytne a byly tam thresholdy třeba 50krát, tak už je to dostatečně dobrý pro to, aby se řeklo, že se nedá identifikovat jednotlivec, zatímco když je něco napsané unikátní pro jednoho člověka, tak je to privacy concern a vyřadíme to. Pro to strojové učení nám stejně o ty jednotlivce nejde. To mají být záznamy stovek milionů lidí, kde si spočítáme, jaká je průměrná výška, váha a ty trajektorie, jak se to vyvíjí v čase přes věkové skupiny. A co pak koreluje s jakými nemocemi, o to nám jde. To by se dalo používat všude možně, a to nejen na prevenci, ale i na navrhování léčby. Ideální by bylo, abychom se do té nemocnice ani nedostali – zachytit tu nemoc, než se rozjede. Jak říkám, až se to začne používat, tak lidem to přijde jako magie, jak to, že model dokázal uhodnout, že mám takovou a takovou nemoc ještě předtím, než se to dalo vůbec nějakým přístrojem zaregistrovat.

Na závěr mám pocit ze spousty debat, co jsem slyšel, tak z toho často vyplývá, že to bude další průmyslová revoluce, velký přerod lidských rolí a prací a spoustu lidí možná bude muset změnit práci nebo přijde o práci a záleží, jak se ti lidé přizpůsobí. Máte tipy na to, jak si to začít osahávat, jak si s tím začít hrát a přizpůsobovat? Vím, že vy dva jste hodně hluboko v tom, ale pro spoustu lidí je to furt ten strašák, který možná je strašák i díky tomu, že nevědí, jak si s tím začít, jak si to sám odzkoušet.

Jan: Jedna rada je nebýt paralyzovaný tím FOMO, že nestíhám, že zase další a odebírám sedmdesátého chytráka na LinkedInu, který mi říká, jaký další a co všechno prokoučuju. To nemá smysl. Úplně v klidu, ať si někdo řekne, že si zkusím ChatGPT a budu si s tím nějak povídat. Něco si o tom zjistím, nebudu dělat mýlku, že budu předpokládat, že jsou tam fakta. To je absolutní iluze. I ten chat, to je iluze. Za tím není žádná entita, která by byla na chatovací session se mnou. To je dlouhý text, který se furt rozšiřuje. Vždycky má system, dvojtečka, human, dvojtečka, já něco napíšu. Tohle vezme. Prolízne to ChatGPT a furt to roste. A furt znovu a znovu od začátku to prolézá tím systémem. Je důležité, aby lidé pochopili, že to není, že systém něco naučili nebo že by si něco pamatovat v té session. Přitom je to triviální tohle pochopit. Změní to náhled na ten systém, ale tam nebudou ty divný odbočky, ezo odbočky, že to má vědomí, že mi to něco řeklo něco, to je důležitý tam dát pryč, ale na druhou stranu se tomu nebudou vysmívat a propadat syndromům popírání, že to nikdy nebude kreativní. Ať si to zkusí. Vymysli vtip na kedlubnu a nějaký bizarní věci a uvidí, jak hučí ta kreativita. To žádný člověk nedokáže takhle fungovat. Řeknou si, že fajn. To je hustý. K čemu bych to mohl použít já? Kde se mi to hodí. Místo aby se topili v nějakých divných ezo blbostech na jednu stranu a v divným popírání, že to nic není na druhou stranu, tak se pokusili najít cestu a řekli si, že to je dobrý. A bude to ještě lepší, protože tohle je za rok, tak co teprve za pět let?

Tomáš: To nebylo za rok. To jsou desítky let práce.

Jan: Jó, ale já si myslím, že pořád je důležitá demokratizace toho nástroje v tu chvíli.

Tomáš: Jo, jo. Ale to očekávání, že za rok to bude 10krát lepší…

Jan: Já nemyslím, že za rok to bude 10krát lepší. Za rok to může být o 50 % lepší na nějaký typ tasků, který v tu chvíli bude. Pak se určitě něco stane dost skokově. To není lineární růst. Něco se někde změní. Pro mě je to jako univerzální přístup to udělat těmito dvěma věcmi. Člověk vystačí s ChatGPT a nemusí si k tomu číst žádný nesmysly, kterak promptovat a když to nebudeš dělat tak, tak jsi looser. Jakoby vyhnout se dvěma stranám, a to ezo stránce a divnýmu popření, že it’s nothing.

Tomáš: Já bych to viděl podobně. Některý ty ezo věci mi připomínají tipy na hubnutí a taky se to všude vyrojilo na internetu, kdy každý je na to vždycky expert. Pak je tam hromada nesmyslů, že například experti na hubnutí radí s tím, jak promptovat ChatGPT. To mi přijde jako stejná ptákovina FOMO – fear of missing out – strach z toho, že něco minu, je zbytečný ve společnosti. Já bych rád, kdyby lidé vnímali nové technologie spíš jako příležitost dělat něco jinak, ale ne nutnost, protože je pravda, že dnes se v některých firmách automatizuje práce. Ty firmy, které toto minou, budou mít oproti konkurenci potenciálně nevýhodu, ale budou se třeba rozvíjet v jiném směru. Já bych to neviděl vyloženě tragicky. Když se toho lidé budou bát a něco, co je tlačí, aby si furt něco četli a studovali a prohlíželi ty LinkedInové experty, tak na tom můžou ztratit více času, než kolik ušetří. Brát to racionálně. Být někde uprostřed. Nebrat to s odporem, že tady máme nějakou novinku, která určitě nikdy nebude fungovat nebo něco, co mi všichni na LinkedInu radí, že se musím vzdělávat. A když si nezaplatím jejich tutorial za 20 tisíc dolarů, tak mě vyhodí z práce. Neplašit, klid, ale neminout tu příležitost, že pokud už mám trochu toho času, tak ještě předtím, než si s tím člověk začne hrát, tak bych doporučil i něco jednoduššího, třeba kouknout v oboru, jestli není nějaký krátký blog, který by to shrnoval, řekněme racionální, ať to není výstřelek na ani jednu stranu z extrémů, ale od někoho, koho znám, věřím mu. A zamyslet se nad tím, zda tomu dát nebo nedat trochu času. Nebrat to jako poplašnou zprávu, že když nezačnu ve firmě používat ChatGPT, tak do roka zbankrotuju. Takhle rozhodně ne.

Jan: Pro doplnění by bylo dobré třeba jednou za rok takový trošku sanity check. Jsem nějaký marketér, tak jedu za kamarády, jinými markéry a dáme si někde v hospodě session, ale reálně na dřeň, co kdo jak s tím umí a reálně se podívat potenciální budoucnosti do očí, jestli bychom neměli něco začít dělat jinak nebo nějakým způsobem změnit a nelpět na tom, jestli ten svět někde přeci jenom neutíká. To není, že by se tam měnila ta primární schopnost jazykových modelů jako takových, ale někde nějaký produkt nebo významná nadstavba nad tím. Nebo developeři by si měli sednout a podívat se na copiloty od GitHubu nějak face to face. Neříkám, že teď jim to tu práci nahradí, ale od teď za 10 let rozhodně bude vypadat prostředí software developmentu úplně jinak než teďka. Kde někde se to mezitím stane, to nevíme, ale rozhodně jestli před sebou očekáváš 10 let kariéry jako software developer, tak bys měl tohle nějak reflektovat. Ostatně i data scientists, machine learning lidi. Já de facto většinu svoji dizertace v natural language processing teď můžu zahodit. Nebo když buduješ startup v oblasti AI, tak spoustu věcí, na které jsi řadu let studoval a dělal jsi je nějak, je snazší a elegantnější způsob, jak je řešit, ale hlavně ty už nemáš tu konkurenční výhodu, že jsi jediný, kdo je umí řešit. Někde přijde parta tří softwarových inženýrů, kteří sice nemají to razítko na dělání jazykových modelů, ale jsou lepší na rychlou, rapidní integraci softwarových produktů. A oni to hacknou bez tebe.

To může být dneska kdekoliv, protože jazyk přestává být konkurenční výhoda. Já sám pamatuju, jak jsem před 1,5 rokem napsal knížku, kdy se ručně přepisovaly podcasty a já jsem vyškrtával, co je důležitý a není důležitý. Říkám si, jestli bych to dnes nedělal jinak. Těžko říct. Všiml jsem si opačného trendu než FOMO. Už si všímám lidí, kteří dávají pod svoji práci, že se na ní nepodílela umělá inteligence. Je to nějaký opačný trend.

Jan: Je ale dobrý podporovat nějaký ekonomický ekosystémy pro tvůrce, protože ono to je dobrý nějak vědět, že když stejně jako má ručně šitá košile nějakou hodnotu, ručně malovaný obrázek oproti nějakému tisku, tak podobně to bude, ale potřebujeme nad tím vybudovat ekosystém nějak, ale na druhou stranu bych se vůbec nebránil automatizaci psaní scénářů, příběhů. To je v pohodě. Já bych si strašně přál, aby Steven King napsal něco jako knížku To. Se mi to hrozně líbilo. Oddechovka, taková 48hodinová audiokniha na dojíždění Praha – Plzeň je úplně bomba. Já jinou jsem nenašel. Já bych si ji klidně nechal strojově. Nemám s tím problém. Nepotřebuju za tím živého člověka. Obojí jde. Myslím, že tady máme možnost to jedním i druhým směrem posunovat. Je důležitý, aby co nejvíce lidí bylo co nejvíce poučených reálně o tý věci.

Super, pánové, moc díky, že jste pomohli naší kapkou pomohli poučit někoho dalšího. Díky, že jste dorazili.

Jan a Tomáš: Díky za pozvání.

Vezme nám umělá inteligence práci? Tomáš Mikolov & Jan Romportl

Rozhovor můžete jednoduše poslouchat na vašem telefonu v těchto aplikacíchPoslechněte si v aplikaci

Přepis epizody

Vybrané rozhovory

David Navrátil & Petr Bartoň

Dan Tržil

Tomáš Havryluk & Tomáš Čupr