Počítač se učí slovník

Vývojáři Googlu publikovali způsob, jak vytvářet, rozšiřovat a zdokonalovat překladový slovník mezi libovolnými dvěma jazyky:

Počítač se na obrovském množství jednojazyčných textů každého z obou jazyků učí jejich jazykovou strukturu: studuje u každého jednotlivého slova nejen jeho frekvenci výskytu, ale např. i slova, která nejčastěji stojí před a za ním – tak je možné statisticky stanovit pravděpodobnost sledu určitých lexikálních jednotek po sobě.

Symbolicky vyjádřený příklad analogické relace v různých jazycích

Na základě analýzy struktury se definuje celý jazyk jako systém mezi sebou propojených slov, který vytváří matematický model.

Vzhledem k tomu, že jsou si současné jazyky strukturálně podobné – odráží totiž strukturu stejného světa –, je tak možné tento matematický model – slovní zásobu jednoho jazyka – pomocí srovnání známých dvoujazyčných překladů analogicky promítnout do druhého jazyka a odvodit překlad výrazů zatím neobsažených v překladovém slovníku.

Nová technologie se zavádí do systémů strojového překladu jako je Google Translate a má tak přispět k jejich dalšímu zdokonalení.

Zdroj: Technology Review: How Google Converted Language Translation Into a Problem of Vector Space Mathematics
Tomas Mikolov, Quoc V. Le, Ilya Sutskeve: Exploiting Similarities among Languages for Machine Translation
Obrázek: © Radim Sochorek

Radim Sochorek

Mohlo by vás také zajímat

V příručce pro politiky se myslí na tlumočníky

Tlumočníci v EU varují před mizernou angličtinou politiků

Univerzální obecná česko-slovenština?