Un saludo a todos.
El caso es que me gustaría que alguien me diera una pistilla para empezar a buscar, porque la verdad, ando bastante perdido.
El objetivo es conseguir el mejor rendimiento de las imágenes escaneadas para despues procesarlas con un OCR.
He leido cosas sobre ruido, filtros gaussianos (A Gauss lo conozco de mis tiempos de facultad
), despeckle, ¿¿¿meuré??? etc.
Mi equipo: un PowerMac G3 256Mb con Debian GNU/Linux unstable, escaner Agfa Snapscan 600 (scsi), usando Gimp+ Xscane ó Kooka. El OCR siempre Kooka, aunque en realidad con motor GOCR (el ocrad no trabaja ni la mitad de boen desgraciadamente).
De momento parece que los mejores resultados los obtengo escaneando en Grey, LineArt,guardando en *.png y evidentemente a 600 dpi (el máximo del escaner), de todas maneras cuando la imagen pasa de los 12-15 Mb empieza a atragantarse(no se cuelga, pero tarda un huevo),
Hay poca diferencia entre escanear directamente con Kooka o hacerlo con Gimp para despues pasarle la imagen al OCR. LLevo toda la tarde dándole caña, y bueno, seguro que vosotros teneis un consejillo, un link, o algun enlace hacia algun tuto interesante.
Por supuesto he buscado en estos foros, y le he dado caña al Google que no veas, pero ando un poco perdido aun, me da la impresión de que no hay mucha documentación, o que no estoy orientando bien las búsquedas...manejo el Google muchísimo, algunos días durante horas, pero hoy no he sabido/podido sacarle todo el jugo.
He encontrado uno que bueno, para el tema del ruido parece que vale (
http://gug.sunsite.dk/tutorials/tomcat7/, pero el problema que tiene el OCR, es mas bien cuando los caracteres se solapan. No importa que sean muy pequeños, mientras no se solapen, pero si hay solapamientos empeora sustancialmente su rendimiento.
Sobre todo me interesa resolver este tema de los solapamientos, creo que si logro dar con alguna solución se pueden obtener resultados muy buenos.
Cualquier otro consejo será bienvenido, solo hay una limitación: no voy a usar software propietario alguno (MacOS, Windows, Photoshop, etc).
Un saludo foreros!!!