Hola Visitante

Autor Tema: tratamiento de imagenes para OCR  (Leído 2488 veces)

empanada

  • Visitante
tratamiento de imagenes para OCR
« en: Febrero 27, 2006, 23:32:49 »
Un saludo a todos.
El caso es que me gustaría que alguien me diera una pistilla para empezar a buscar, porque la verdad, ando bastante perdido.
El objetivo es conseguir el mejor rendimiento de las imágenes escaneadas para despues procesarlas con un OCR.
He leido cosas sobre ruido, filtros gaussianos (A Gauss lo conozco de mis tiempos de facultad :-) ), despeckle, ¿¿¿meuré??? etc.
Mi equipo: un PowerMac G3 256Mb con Debian GNU/Linux unstable, escaner Agfa Snapscan 600 (scsi), usando Gimp+ Xscane ó Kooka. El OCR siempre Kooka, aunque en realidad con motor GOCR (el ocrad no trabaja ni la mitad de boen desgraciadamente).
De momento parece que los mejores resultados los obtengo escaneando en Grey, LineArt,guardando en *.png y evidentemente a 600 dpi (el máximo del escaner), de todas maneras cuando la imagen pasa de los 12-15 Mb empieza a atragantarse(no se cuelga, pero tarda un huevo),
Hay poca diferencia entre escanear directamente con Kooka o hacerlo con Gimp para despues pasarle la imagen al OCR. LLevo toda la tarde dándole caña, y bueno, seguro que vosotros teneis un consejillo, un link, o algun enlace hacia algun tuto interesante.
Por supuesto he buscado en estos foros, y le he dado caña al Google que no veas, pero ando un poco perdido aun, me da la impresión de que no hay mucha documentación, o que no estoy orientando bien las búsquedas...manejo el Google muchísimo, algunos días durante horas, pero hoy no he sabido/podido sacarle todo el jugo.
He encontrado uno que bueno, para el tema del ruido parece que vale (http://gug.sunsite.dk/tutorials/tomcat7/, pero el problema que tiene el OCR, es mas bien cuando los caracteres se solapan. No importa que sean muy pequeños, mientras no se solapen, pero si hay solapamientos empeora sustancialmente su rendimiento.
Sobre todo me interesa resolver este tema de los solapamientos, creo que si logro dar con alguna solución se pueden obtener resultados muy buenos.
Cualquier otro consejo será bienvenido, solo hay una limitación: no voy a usar software propietario alguno (MacOS, Windows, Photoshop, etc).
Un saludo foreros!!!

Desconectado raғa eѕpada

  • Administrator
  • ******
  • Mensajes: 8.055
Re: tratamiento de imagenes para OCR
« Respuesta #1 en: Febrero 28, 2006, 21:49:44 »
Mi consejo? un escaner de los de hoy en día  de cuatro duros... en mi caso el software que viene es ReadIris 9 y desde el propio software me escanea y hace el OCR, además me pasa el diccionario y me lo guarda en el escritorio... pero vaya... es todo propietario... :(

Antes mi truco era... escanear mínimo a 600ppp, desenfocar un poco y contrastar... siempre dejar el texto en linea, en mapa de bits... así conseguía los mejoreas aciertos.

Por aquella época por supuesto todo texto limpio, nada de texto blanco sobre negro y demás... pero eso ya pasó... ahora un boletín que tengo que pasar por OCR lo hago con programas modernos... y en menos de 30minutos tengo todos los artículos que necesito... con un 99% de acierto.

Solo indicarte que tenía ganas de conocer soluciones de OCR OpenSource... mi escaner tiene software... pero en evito en lo posible tener que comprar... así que gracias... ;-)

El problema que hay a la hora de conseguir información creo que es porque el OCR principalmente va asociado a escaners documentales... y eso... todo es propietario... y eso que creo que se usará más y más... la ley que sigue a la Ley de Protección de Datos (que afecta a la información digital) es la que afectará a la información física (en papel) con lo que veremos como las empresas dedicarán muchos recursos a pasar todos esos papeles a formato digital...

p.d. tenía tu mismo escaner... bueno... el de 300ppp, el de 600ppp era de ricos ;)
rafa