Přijít na jméno počítačové lingvistice

Ivana Recmanová

Ivana Recmanová ve svém sloupku reaguje na článek Martina Uhlíře. Časopis Respekt podle ní reprodukuje mýty o oboru počítačových překladů.

V sobotním Denním menu Martina Uhlíře se na stránkách časopisu Respekt objevil článek o počítačových překladech. Vzhledem k tomu, že se zajímám o počítačovou lingvistiku a také se jí věnuji, jsem ráda, že se novinářská pozornost upírá tímto směrem. Na druhou stranu jsem z dotyčného článku získala pocit, že autor spíše oboru prokázal medvědí službu.

V první řadě bych viděla na vině nepochopení původního článku z New York Times. Ačkoliv Martin Uhlíř píše, že první pokusy strojového překladu „vykopal[y] hluboké, dodnes nezasypané příkopy mezi lingvisty a překladateli na jedné straně a počítačovými vědci na druhé.

Pro ty první je na prvním místě jazyk se svojí krásou a nejednoznačnou složitostí — nejdůležitější je, aby překladatel pochopil význam původního sdělení a převedl jej do jiného jazyka včetně stylu“, ve skutečnosti v článku nic takového nestojí — a dokonce je tento pohled na lingvisty nesprávný.

V českém článku zmiňovaný matematik Warren Weaver, který se zasloužil o rozvoj strojového překladu, v původním článku říká, že existují dvě roviny překladu — v jedné jde o vyjádření stylu, o což se snaží překladatelé, v druhé o převedení významu, o což se snaží stroj.

Samozřejmě, v mnoha případech musí význam převést i překladatelé, na druhou stranu to nestačí. Chceme-li získat z přeloženého textu stejný umělecký prožitek jako z textu původního, nemůžeme zvolit překlad doslovný, protože různé fráze, metafory, dokonce i slovosled se liší napříč jazyky. O žádnou velkou válku se tedy nejedná.

Proč byli do údajného sporu zasazeni lingvisté, vůbec netuším. Lingvistům může být překladatelství ve skutečnosti ukradené, protože ne každý lingvista se zabývá teorií překladu (a troufám si tvrdit, že ve skutečnosti se o tuto oblast zajímá jen menšina z nich).

Na druhou stranu, jak v Uhlířově textu, tak i v textu původním je zmiňován pojem „počítačový lingvista“. Počítačoví lingvisté, jak název napovídá, se věnují tématům na pomezí informatiky a lingvistiky, včetně strojového překladu.

Pak se ovšem nabízí otázka, proč Martin Uhlíř napsal, že „jazykovědců si [počítačoví vědci] zpravidla neváží“. To je hrubý omyl a prokázání naprosté neznalosti poměrů v počítačové jazykovědě, tak i článku samotného: proč by pak na konferenci byli jazykovědci zváni, kdyby si jich informatici nevážili?

Počítačová lingvistika využívá jak poznatků z informatiky, tak z lingvistiky, přičemž v několika českých centrech, které se touto problematikou zabývají (např. Ústav formální a aplikované lingvistiky na MFF UK nebo Centrum pro zpracování přirozeného jazyka na FI MU) musejí lingvisté i informatici spolupracovat.

Počítačová lingvistika využívá jak poznatků z informatiky, tak z lingvistiky. Foto Nathan T. Baker, Flickr.com

Že jsou lingvisté přínosní pro výzkum, ostatně zmiňuje i profesorka Jarmila Panevová z ÚFALu v knize Rozhovory s českými lingvisty III. V článku je zmíněn jeden anonymní výzkumník z IBM, který měl s lingvisty údajně špatnou zkušenost — o to vtipnější je, že IBM s ÚFALem spolupracuje. Samozřejmě, uvedená situace se mohla skutečně stát, nevypovídá to ale vůbec nic o všeobecné situaci na poli výzkumu strojového překladu.

Dalším omylem v článku je informace, že počítače nevěnují pozornost sémantice. To by ovšem neexistovalo odvětví počítačové sémantiky. Pro strojové překlady je samozřejmě nutné věnovat pozornost významu slov a frází, přičemž statistické modely se vůbec se sémantikou nevylučují, ba naopak.

Ostatně, pokud máme určit, co znamená slovo „kohoutek“ ve větě „Otočila kohoutkem, ale voda netekla“, nejspíš se zachováme jako počítač — všimneme si slov otočit, voda a téci, z čehož usoudíme, že se myslí součást umyvadla, nikoliv živé zvíře. To je rovněž problém původního článku - ten se však obecně tváří méně konfliktně než jeho český výtah.

Jak už jsem napsala výše, počítačová lingvistika, potažmo výzkum strojového překladu, je rychle se rozvíjejícím oborem s velkým potenciálem. Byla by škoda, kdyby o ní uznávaná média reprodukovala zavádějící informace.

    Diskuse (10 příspěvků)
    Jiří Kubička, psycholog
    June 10, 2015 v 13.21
    Google translate
    Předposlední odstavec článku v překladu od Googlu:
    Indeed, if we determine what is meant by the word "cock" in the sentence "She turned the faucet, but the water flowed," perhaps we act like a computer - Note the word flip, water flow, from which we conclude that the thinking part of the sink, not live animal. This is also the problem of the original article - it is not generally face less troublesome than its Czech elevator.

    S kohoutkem si překladač poradil, s výtahem a slovem "tváří" ne.
    PK
    Pavel Kolařík, informatik
    June 10, 2015 v 13.50
    To mi připomnělo
    známou kvizovou otázku "jakým slovem končí opera Prodaná nevěsta"?

    Správná odpověď zní "Stroj"

    Neboli v Google překladu poslední věty do němčiny

    "Die Hochzeit, so dass die Maschine"

    a do angličtiny

    "The wedding, so the machine"

    Eh - jakže zní tedy ta poslední věta v originále?
    IR
    Ivana Recmanová, studentka a lingvistka
    June 10, 2015 v 14.24
    To mi připomíná legendární větu "Ženu holí stroj".

    :-)
    TT
    Tomáš Tožička
    June 10, 2015 v 17.11
    Veselá se svatba stroj
    Obávám se, že s touto větou by měl problém i cizinec, který je nadprůměrně dobrý znalec ČJ. Bylo to napsáno před více než sto padesáti lety a ani dnešní básnířka by to tak zřejmě nenapsala.

    To není problém jednoduchého počítačového překladače, ale toho, kdo ho používá k tomu, aby s ním překládal poezii 19. stol. :-)

    Není ovšem problém si najít libreto přeložené do některého ze světových jazyků.
    Jiří Kubička, psycholog
    June 10, 2015 v 19.34
    S Kázáním na hoře v Kralickém překladu si Google Translate poradil přímo skvěle
    Blahoslavení, kteříž protivenství trpí pro spravedlnost, nebo jejich jest království nebeské.
    Blahoslavení budete, když vám zlořečiti budou a protivenství činiti a mluviti všecko zlé o vás lhouce, pro mne.
    Google Translate
    "Selig sind, die um der Gerechtigkeit willen verfolgt werden, denn ihrer ist das Himmelreich.
    Selig seid ihr, wenn sie Sie gegen Sie falsch verfluchen und verfolgen Sie und sagen, alles Böse, um meinetwillen."
    MP
    Martin Profant
    June 10, 2015 v 21.9
    Jiřímu Kubíčkovi
    Vskutku, i Luther to ve svém překladu bible (resp. v tom, jak ho revidovali v roce 1911) má doslova stejně :-)

    Ty vyhledávací programy se Googlu opravdu povedly, jen je škoda, že čeština se svým počtem mluvčích tam má málo textu na porovnávání.
    Jiří Kubička, psycholog
    June 11, 2015 v 17.39
    Hrubá výpočetní síla a lingvistická analýza.
    V článku, který Ivana Recmanová kritizuje, je zmíněno: "metody založené na statistice a hrubé výpočetní síle nemají v současnosti vážnou alternativu". V počátcích strojového překladu se věřilo, že stroje budou překládat trochu jako lidi, na základě znalosti pravidel jazyka.

    Google Translate, který přece jen do určité míry funguje, kašle nejen na sémantiku, ale i na syntax, jen hledá v obrovské databázi podobné texty, které už byly přeloženy. V šedesátých letech minulého století si dnešní přístupy založené na megadatech a hrubé síle nikdo nedovedl představit.

    Kdyby počítače opravdu překládaly reativně úspěšně postupem podobným jako lidi, bylo by to z hlediska kognitvních věd nesmírně zajímavé. Ještě zajímavější by bylo, kdyby se počítač naučil jazyku podobně jako se se děti naučí svému rodnému jazyku - tím, že slyší druhé lidi mluvit a tím, jak reagují na to, co samo říká. To, jak se děti naučí mluvit, neví nikdo, Chomského koncept vrozené universální gramatiky je k tomu snad první krok.

    Vzájemné citové vztahy lingvistů a ajťáků jsou možná spíš takové, jak je líčí paní Recmanová, ale v tom důležitějším má myslím článek pravdu. Hrubá výpočetní síla a statistika zatím vítězí nad analýzou problému. Deep Blue ostatně také neporážel velmistry šachu tak, že by přemýšlel jako člověk.



    PK
    Pavel Kolařík, informatik
    June 11, 2015 v 20.55
    Od dob Deep Blue došlo k výraznému vývoji
    Dnešní šachové programy už zdaleka nesázejí na hrubou sílu. Jejich producenti tvrdí, že jim předali do značné míry schopnost přemýšlet jako člověk - avšak lépe, spolehlivěji, a samozřejmě hlouběji.
    Dnešní šachové programy tedy nejsou už jenom absolutně spolehlivé, pokud jde o taktiku - to byly už před 10 lety. Umějí se už orientovat ve strategii, v poziční hře - a v tom právě se vyrovnávají člověku.
    Před 10 lety mohl ještě velmistr při zablokování pozice a nepřipuštění otevřených taktických zápletek doufat v remízu, nebo někdy dokonce i ve výhru - když měl třeba dobře umístěného koně proti špatnému střelci skrytému za hradbami pěšců plechového soupeře. Dnes už by to tedy byla skutečně senzace, kdyby se komukoliv něco takového ještě povedlo.
    Dnešní programy umějí velmi rychle usoudit, které tahy a které varianty nepřipadají v úvahu, a nemusejí s nimi tedy dále ztrácet čas - jako to dělaly "brutal force" programy před 10 až 15 lety.

    Viz např. program Komodo - zřejmě dnešní číslo 1 ve světě (o které soupeří s programem Houdini - a je to o prsa).

    http://shop.chessbase.com/en/products/komodo_chess_9
    Jiří Kubička, psycholog
    June 12, 2015 v 7.21
    Šachy jsou mnohem jednodušší problém než překlad - je jasně dáno, které tahy jsou možné a co je mat. V překladu zatím potřebujete člověka jak k tomu, aby posoudil, jestli je věta správně vytvořená, tak k tomu, aby posoudil, jestli významem odpovídá originálu. To druhé dokonce ani při lidském posouzení není jednoznačné.
    PK
    Pavel Kolařík, informatik
    June 12, 2015 v 9.38
    Jedno však počítačům musíme nechat
    Jejich chyby nejsou nikdy úmyslné. Počítače nemají zlou vůli, a nikdy to není tak, že by něčemu úmyslně "neporozuměly".