Nový software pro automatizovaný překlad chemických substancí

Celosvětově platné chemické názvosloví je definováno v angličtině, která je mezinárodním jazykem komunikace mezi chemiky. Místní organizace IUPAC překládají a zpřístupňují chemické názvosloví pro použití v národních jazycích.

kyselina 4-chlorfenoxyoctová
CS: kyselina 4-chlorfenoxyoctová
EN: 4-chlorophenoxyacetic acid
DE: 4-Chlorphenoxyessigsäure
FR: Acide 4-chloro-phénoxyacétique
NL: 4-Chloor-fenoxy-azijnzuur
PL: kwas 1-chlorofenoksyoctowy
HU: 4-Klórfenoxiecetsav


Přesto je nutné i v mezinárodní komunikaci názvy chemických látek překládat. Mysleme jen na celou legislativu Evropské unie, která se překládá do jazyků členských států, ale také na patenty, které musí být definovány v jazyce zemí, pro něž jsou určeny.

Od 60. let 20. století se hledá způsob, jak překládat názvy chemikálií za pomoci počítačů, tyto snahy však byly téměř výhradně omezeny na překlady z angličtiny.

Co však bylo vždy překážkou těchto snah, je velká komplexnost a možná zaměnitelnost nomenklatury při minimálních změnách jako mezerách mezi částmi sloučeniny (phenyl acetate vs. phenylacetate), použití velkých a malých písmen (N-butylsulfinimidoylacetic acid vs. n-butylsulfinimidoylacetic acid) nebo i rozdílný pravopis (sulphur vs. sulfur).

Vedle systematických názvů chemikálií existují starší triviální názvy. Různé způsoby pojmenování je možné mezi sebou kombinovat. Do některých jazyků dokonce dosud nebyly některé části mezinárodní terminologie (naposledy revidované v r. 1993) přeloženy a musí se proto odvozovat z názvů běžně používaných v učebnicích nebo odborných textech.

Jak se ukázalo, konvenční strojový překlad si s komplexností chemického názvosloví nedokáže dost dobře poradit. Lexichem, nový software pro automatizovaný překlad chemického názvosloví, naproti tomu dokáže přeložit více než 250 000 názvů chemikálií z angličtiny do dalších sedmi jazyků a zpět, a to s přesností nad 98 %.

Pro jednotlivé jazykové kombinace existuje soubor pravidel, podle kterých se název chemikálie v jednom jazyce nahrazuje názvem v druhém jazyce. Počet pravidel ukazuje, že překlady názvů do angličtiny jsou zpravidla složitější. Podívejme se jen na pravopisné variace: má se pyridin přeložit jako pyridine nebo pyridyne? Je tak např. definováno 292 pravidel pro překlad do němčiny, pro opačný směr je ale nutných již 831 pravidel. Lexichem zvládá i překlady z a do japonštiny, kde je kvůli specifikům znakového jazyka počet pravidel ještě vyšší (742 pro směr en > jp a 1481 pro směr jp > en).

Kontrolní mechanismus zpětného překladu ukazuje úspěšnost technologie Lexichemu: u němčiny se dosahuje shody 100 %, u japonštiny je to 99,92 %, u maďarštiny ovšem už jen 98,41 %. Pro překlad dokumentů, na které jsou kladeny nejvyšší požadavky na přesnost, jako jsou právě zákonné předpisy nebo patenty, musí být výstup z Lexichemu tak jako tak ověřen. Software v každém případě představuje významnou pomůcku pro zvýšení efektivity překladového procesu. Rychlost Lexichemu je úctyhodná: na běžném kancelářském počítači přeloží 250 000 složených názvů z angličtiny do němčiny během 2 s.

Pro nové verze se připravuje podpora dalších jazyků (čeština zatím v nabídce zcela chybí), automatická korektura chybně napsaných anglických názvů, a řeší se také problém, jak z většího textového celku vyseparovat chemické názvy, které mají být softwarem přeloženy.