Počítače zápasí s češtinou

Přirozený lidský jazyk představuje pro počítače obrovskou výzvu, protože se vyvíjel dlouhou dobu, dynamicky a nefomálně, a jeho převod do matematických a logických pravidel je velmi obtížný. Speciálně u češtiny, ale i u dalších slovanských jazyků si počítač láme zuby na množství tvarů jednoho a téhož slova v různých pádech a osobách:

Srovnání možných tvarů slova ‚stůl‘
(v angličtině, francouzštině, němčině a češtině)

en: table, tables (2)
fr: table, tables (2)
de: Tisch, Tischs, Tisches, Tische, Tischen (5)
cs: stůl, stolu, stole, stolem, stoly, stolů, stolům, stolech (8)

Dále se např. různé předložky pojí s různými pády a určitý tvar odpovídá více možným pádům. Pokud uvažujeme i o odvozených slovech, mohou se slovesa jako pracovat nebo kupovat vyskytovat v textech prakticky ve stovkách tvarů.

S tím souvisí jedna velká komplikace, že se určitý tvar vyskytuje v textových korpusech, ze kterých se počítače učí, jen v omezeném množství, rozhodně méně frekventovaně než jeho protějšek ve stejně dlouhém anglickém korpusu. K tomu zohledněme množství dostupných českých a anglických textů – není divu, že se vzhledem k této disproporci hovoří o tom, že češtině hrozí digitální vymření.

U 21 z 30 evropských jazyků bylo diagnostikováno, že nemají dostatečně velké databáze a vyvinuté technologie. Právě bez existence jazykových technologií na odpovídající úrovni (jako rozpoznávání a generování hlasu, strojový překlad apod.), přitom není možný další rozvoj obchodu. Obchodníci se raději budou zaměřovat na trhy, které těmito možnostmi disponují.

Zdroj: HN: Učíme stroje rozumět češtině
Foto: Argonne National Laboratory, licence CC-BY-SA 2.0

Radim Sochorek

Mohlo by vás také zajímat

Nová terminologie Office 2007

Aktualizace Google Translate umožňuje přesnější překlad

Zadávání znaků na Windows Mobile IV: Transcriber