A magyar nyelv, mint tudjuk, erősen ragozós (agglutináló) nyelv, a szavakhoz háromféle toldalék járulhat: képző, jel vagy rag.
- A képzők megváltoztatják a szó jelentését, gyakran szófaját is. A képzőkkel igéből igét, névszóból igét, igéből névszót és névszóból névszót tudunk alkotni. A szótárakban ezek általában önálló bejegyzésként szerepelnek, a projekt keretében ezekkel nem foglalkoztam.
- A ragok a szó mondatban betöltött szerepét jelölik, a jelentését nem módosítják, tehát nem alkotnak új szót. Példák: birtokos rag, tárgyrag, határozói ragok...
- A jelek sem alkotnak új szót, sőt, a szó mondatbeli szerepét sem változtatják meg. Példa a jelekre: többesszám jele, birtokos jel...
Egy ragozó program természetesen nem tud minden magyar főnevet és melléknevet helyesen ragozni, ugyanis rengeteg a kivétel, amelyeket külön kell kezelni. Ráadásul, a kivételek alól is vannak kivételek! A szavaknak nem csak a formáját kell figyelni, hanem a jelentését is, ehhez pedig emberi intelligencia kell. Például: a tó főnév töbesszáma tavak, de a kilátó többesszáma nem kilátavak, hanem kilátók. A kivételek és a kivételek kivételeinek kezelése után is akad még javítgatnivaló.
A projekt keretében én egészen pontosan 38.084 főnévvel és 4771 melléknévvel dolgoztam, amelyeket akapvetően az on-line magyar-román szótáramból exportáltam, majd ellenőriztem. A korrektúra tehát 38084x56 + 4771x20 = 2 228 124 szóalak ellenőrzését jelentette, amely önmagában is egy hatalmas munka. Ebben 2 munkatárs segített, akik ennek a mennyiségnek kb. 5%-át ellenőrizték, a többi 95% az én feladatom maradt.
A munka egy nagy internetes keresőszolgáltatónak készült, a projekt végső célja az internetes keresés optimalizálása (SEO). Konkrétabban: amikor a keresőben beírjuk például a „ház” szót, a keresés eredményei között ennek a szónak ragozott alakjai is (házam, házad, háza, házak stb.) jelenjenek meg. [Megj.: Ez a példa talán nem is a legjobb, hisz a „ház” kulcsszóra könnyű megtalálni a „házak” szót is, de például a „szerelem” szó esetében ez nem ilyen könnyű, mert többesszáma ”szerelmek”.] Tehát, aki mostantól az interneten keres, annak elvileg több és pontosabb találat adódik.
Részemről a munka menete a következő volt:
- a feladat felmérése, munkaterv kidolgozása: kb. 2 hét;
- szoftverfejlesztés: kb. 1 hónap;
- korrektúra: kb. 3 hét.
A projektért kapott díjazás természetesen nem fedezi a befektetett energiát, de ennek ellenére élveztem ezt a munkát, és szívesen dolgoznék a folytatásán. Ugyanis a 266 szóalaknak a negyede sem készült el.