Kaixo! Inoiz saiatu al zara liburu, dokumentu zahar edo argazki bateko euskarazko testu bat digitalizatzen? Hala bada, ziurrenik ohartuko zinen prozesua ez dela ingelesezko testu batekin bezain erraza. Euskararen hitz luze eta atzizkiz beteek (etxeetakoarengandik bezalakoek) OCR motor generikoenak zoratu ditzakete.
Baina ez etsi! Gaur, zure euskarazko OCR-aren emaitzak nabarmen hobetzeko bost "eztizko aholku" partekatuko ditut, tresna egokia aukeratzetik hasi eta emaitza perfektua lortzeko azken ukituetaraino.
1. Aholkua: Hasi oinarri on batetik: Tesseract eta eus paketea
Hau da urrats garrantzitsuena. Ez erabili edozein OCR. Kode irekiko tresnen artean, Tesseract OCR da erregea, eta, zorionez, euskararako entrenatutako eredu espezifiko bat du.
Irtenbidea:
- Instalatu Tesseract zure sisteman.
- Ziurtatu euskararako hizkuntza-paketea (eus.traineddata) instalatzen duzula. Normalean, instalazio-prozesuan hizkuntzak aukeratzeko aukera ematen du.
- Erabiltzerakoan, esplizituki adierazi euskara erabili nahi duzula -l eus parametroarekin.
Adibidez, komando-lerrotik:
tesseract nire_irudia.png irteerako_testua -l eus
Onura: Euskararako eredu espezifikoa erabiliz, Tesseract-ek gure hizkuntzaren letrak, diptongoak eta hitzen egitura hobeto ulertuko ditu, emaitza askoz hobeak lortuz hasieratik.
2. Aholkua: Irudiaren kalitatea, emaitzaren kalitatea (Aurreprozesamendua)
OCR motor bat ez da azti bat; irudian ikusten duena interpretatzen saiatzen den software bat da. Irudia kalitate txarrekoa bada, emaitza negargarria izango da. Hau are garrantzitsuagoa da euskararekin, hitz luzeetan akats txiki batek hitzaren esanahia guztiz alda baitezake.
Irtenbidea: OCR-a pasatu aurretik, hartu minutu batzuk irudia "garbitzeko".
- Eskaneatu bereizmen handian: Gutxienez 300 DPI (dots per inch) erabili. Horrek letren formak askoz argiago bihurtzen ditu.
- Binarizazioa: Bihurtu irudia zuri-beltz purura, kontraste maximorako. Tarteko grisik gabe.
- Zuzenketa (Deskewing): Irudia okertuta badago, zuzendu ezazu. Lerro zuzenek asko laguntzen diote motorrari.
- Zarataren ezabaketa (Noise Removal): Kendu orbanak, puntuak eta bestelako "zaborra".
Onura: Aurreprozesamendu on batek OCR-aren arrakasta-tasa %50 baino gehiago hobe dezake.
3. Aholkua: Probatu erraldoiak: Hodeiko OCR Zerbitzuak
Tesseract bikaina den arren, batzuetan, dokumentu zailekin (eskuz idatzitako testuak, letra-tipo arraroak, argi gutxiko argazkiak), hodeiko zerbitzu handiek emaitza hobeak eman ditzakete.
Irtenbidea: Probatu Google Cloud Vision AI edo Azure AI Vision (Microsoft) bezalako zerbitzuak. Eredu hauek milioika dokumenturekin entrenatu dira eta, batzuetan, euskara bezalako hizkuntza "txikietan" ere errendimendu harrigarria dute.
Eztizko Aholkua: Zerbitzu hauek doako erabilera-maila bat eskaintzen dute normalean (adibidez, hilean lehen 1000 irudiak doan). Ez duzu ezer galtzen zure dokumenturik zailena igotzeagatik eta emaitza Tesseract-ekin alderatzeagatik.
4. Aholkua: Azken ukitua, ezinbestekoa: Euskal zuzentzaile ortografikoa
OCR prozesu batek ez du inoiz %100eko zehaztasuna bermatzen. Euskararen kasuan, ohikoa da motorrak hitz oso antzekoak baina okerrak sortzea (adibidez, "etxeetan" beharrean "etxectan" idaztea).
Irtenbidea: OCR-ak sortutako testu gordina kopiatu eta euskal zuzentzaile ortografiko batetik pasatzea.
Tresnak:
- Xuxen: Euskarazko zuzentzaile ortografiko klasikoa.
- Hobelex: Hiztegi-baliabide osoa, testuak zuzentzeko aukera ere ematen duena.
- Zure testu-prozesadoreak (LibreOffice, Microsoft Word) euskararako hizkuntza-paketeak instalatuta baditu, bertako zuzentzailea ere oso erabilgarria da.
Onura: Post-prozesamendu pauso sinple honek dokumentuaren azken zehaztasuna izugarri handitu dezake, euskararen morfologiari eta hiztegiari dagozkion akats espezifikoak zuzenduz.
5. Aholkua (Adituentzat): Entrenatu zure eredu propioa
Arazoa: Proiektu handi bat duzu, eta beti dokumentu mota berdinarekin lan egiten duzu (adibidez, XVIII. mendeko artxibo historikoak, letra-tipo espezifiko batekin). Eredu generikoak ez dira nahikoa zehatzak.
Irtenbidea: Zure OCR eredua fino doitzea (fine-tuning). Tesseract-ek zure datuekin berr entrenatzeko aukera ematen du. Prozesu honetan, zure irudi multzo bat eta haien transkripzio zuzenak ematen dizkiozu Tesseract-i.
Onura: Zure dokumentu espezifikoak ezagutzen aditu bihurtzen den eredu pertsonalizatu bat sortzen duzu. Honek eskala handiko proiektuetan lor daitekeen zehaztasun-maila altuena eskaintzen du.
Amaiera: Testu zaharretatik datu bizietara
Euskarazko testuekin OCR-a egiteak bere erronkak ditu, baina ikuspegi sistematiko batek emaitza bikainak eman ditzake. Tresna egokia (Tesseract+eus), irudiaren prestaketa zaindua, post-prozesamendua zuzentzaile batekin eta, behar izanez gero, ereduaren pertsonalizazioa konbinatuz, inprimatutako dokumentuetan harrapatuta dagoen informazio baliotsua desblokeatu eta datu bizi eta erabilgarri bihurtu dezakegu.
댓글