56547176 Anon Guia Para La Digitalizacion y Correccion de Textos

Embed Size (px)

Citation preview

  • 7/30/2019 56547176 Anon Guia Para La Digitalizacion y Correccion de Textos

    1/5

    CONSEJOS Y TRUCOS PARA LA DIGITALIZACIN Y CORRECCIN DE TEXTOS(GUA PASO A PASO CON FINE READER Y WORD)

    PRESENTACIN:Visto que continuamente hay gente que se integra en la lista y no estfamiliarizada con la digitalizacin y correccin de textos, se me ha ocurridohacer un resumen paso a paso de las tareas que componen este proceso y de la

    resolucin de los problemas ms comunes que se plantean. Para hacerlo ms amenoy refiero mis experiencias personales. Y agradezco la ayuda que me ha brindadoEl Trauko con sus oportunos consejos y a Elfowar por ensearme el "split"(separacin) de las pginas en FR y su reacomodamiento.Espero que les sea til.Cx.

    [EQUIPAMIENTO CON QUE TRABAJO:Scanner: HP 3c (scsi)OCR: Fine Reader versin 6.0 Corporated Edition en ingls (en adelante, FR)Word: Word 2000 en ingls (en adelante, Word)]

    EL SCAN:Escaneo a 300 dpi en la opcin solo texto (nada de escala de grises ni rgb, ninada de nitidez especial) con un rango bastante claro para evitar sombras eimperfecciones.Escaneo de a 2 pginas a la vez. Segn como pueda colocar el libro en la "cama"del scanner lo pongo horizontal o vertical (pero prefiero el horizontal).Escaneo todo el libro de un tirn. No empiezo ninguna otra tarea con el mismolibro hasta terminar el scan. Comnmente uso la opcin de escanear mltiplespginas de FR porque ya numera automticamente los tiff. En opciones deescaneo elijo "split dual pages" para separar las dos pginas y, si escaneo envertical, elijo que detecte automticamente la direccin de la pagina (tengo

    cuidado de poner la pgina de numeracin inferior en el ngulo de inicio delescaneo de lo contrario FR colocar la Pg. 4 antes que la 5, por ejemplo). Amedida que voy escaneando en las ventanas de FR verifico que la imagen vengaclara y con la menor cantidad de imperfecciones para ello corrijo los valores deluminosidad del escaneo (nivel del umbral).[A veces FR tiene dificultad para reconocer la orientacin de las pginas osencillamente la mquina se vuelve muy lenta para esta opcin en esos casos hagolo siguiente: El Batch (lote) en que pongo las imgenes no es el definitivo:cuando termin de escanear y he rotado las imgenes hasta que las tengo todasen horizontal. Entonces creo un nuevo batch o "lote" (el definitivo, con elnombre definitivo). Entre las opciones de FR elijo que haga split de las

    pginas. FR separa entonces todo en pginas individuales.]CONTROL DE PAGINACIN (C1):A medida que se escanean las pginas FR, en una ventana de la izquierda colocaminiaturas (thumbnails) de la pginas escaneadas, con el nmero de pgina que leha correspondido, al pie de la misma.Pues bien, al concluir el escaneo HAGO COINCIDIR EL NUMERO DE LA PRIMERA PAGINACON EL NUMERO DE ESA PAGINA EN EL LIBRO Y HAGO QUE RENUMERE TODAS LAS PGINAS ENCONSECUENCIA. Y de esta forma verifico que a cada pgina se corresponda con elnmero de la miniatura correspondiente.La razn es la siguiente: Hay que hacer control de que no se haya salteadoninguna pgina durante el escaneo (o que alguna la haya escaneado, pordistraccin, dos veces). Y se controla que todas ellas estn en el ordencorrecto.

    Truco: En realidad no es necesario controlar con este procedimiento todas laspginas. Si uno controla una de cada diez o veinte y siempre hallacoincidencia, la posibilidad de error es casi nula. Y adems, controlo siempre

  • 7/30/2019 56547176 Anon Guia Para La Digitalizacion y Correccion de Textos

    2/5

    las ltimas 2 pginas. Si uno est muy apurado, controla la primera y laltima, y luego, algunas de las intermedias (si hay coincidencias probablementeno existan problemas de paginacin)

    EL LAYOUT (ENCUADRE DEL TEXTO A RECONOCER):Para hacer que el OCR reconozca el texto hay que seala en cada pginas lasreas que debe leer. Esa marcacin es el layout y debe hacerse en cada pagina

    que se desea reconocer. Si una pgina no tiene el layout marcado NO SER LEDA.El procesamiento del layout puede hacerse automticamente y para todas laspginas; o sealar las reas de reconocimiento manualmente.

    CONTROL DEL LAYOUT (C2):En el caso del procesamiento automtico del layout, conviene (una vez que FR hadefinido el layout de cada pgina):eliminar del mismo los nmeros de pgina, y cabezales y pies de pgina (si loshubiera).eliminar todas otras imperfecciones que el FR hubiera entendido como dibujos otextos.corregir los recuadros cuando hubiera eliminado un texto o un ttulo, o un

    numero de captulo por error.Verificar el orden de los cuadros de texto a reconocer.En el caso de realizar la marcacin manualmente, conviene hacer una revisin delorden de los recuadros a reconocer.

    EL RECONOCIMIENTO PTICO DE CARACTERES (OCR):Antes de proceder al reconocimiento de todas las pginas hay que verificar:el idioma de reconocimiento (generalmente, espaol)Verificar en la "opciones" [Tools>Options>Formatting] que retenga "font & fontsize" (caractersticas de fuente y tamao) lo que permitir conservar lasitlicas y negritas del texto y las diferencias de tamao de ttulos ysubttulos.Conviene tambin que corrija automticamente los espacios antes y despus de la

    puntuacin (chequear la casilla de esta opcin).

    Luego hacemos reconocer el texto.Hasta donde s FR trabaja de esta manera: 1) reconoce cada letra por sucontorno; 2) cuando se topa con un espacio mayor entre una letra y otra reconocelas letras prximas como palabra; 3) en una segunda pasada compara esa palabracontra un diccionario del idioma elegido, si la palabra aparece en sudiccionario la acepta como tal; si la palabra tiene alguna alteracin (p. ej.lee "opcion", busca en su diccionario y la palabra ms prxima es "opcin", sualgoritmo admite que puede ser un error de la imagen y escribe opcin) escribela palabra como la considera correcta y seala la duda con una marca de color(celeste); si la palabra no figura en su diccionario la escribe como reconocecada letra y la marca en color (celeste). FR tiene varios niveles de correccin.Y, no lo he probado, pero creo que puede suspenderse la autocorreccin.

    CONTROL DE LAS DUDAS Y ERRORES DEL OCR (C3):Una vez ledo el texto FR deja marcas en color celeste de todas las dudas que hatenido. Hay que hacer un repaso pagina por pgina mirando las dudas que hamarcado. La regla es esta: si FR marca con celeste pero nosotros no observamosque haya ningn problema dejamos esa marcacin tal como est, si en cambionotamos que en lo sealado hay un error, lo corregimos cotejando con la imagenampliada que aparece en la ventana inferior. Muchos de estos errores no podrnser corregidos o detectados por Word as es que SE HACE NECESARIO realizar estascorrecciones aqu en FR (antes de salvar el texto para Word).

    El texto as depurado ya ha cumplido con los controles 123 de modo que sucalificacin sera [C123], donde C quiere decir "Control".Tip: Cuando uno va a realiza este control conviene reacomodar las tres ventanas

  • 7/30/2019 56547176 Anon Guia Para La Digitalizacion y Correccion de Textos

    3/5

    de modo que la ventana del texto ampliado y la del texto ledo por OCR tenganmayor espacio. Usando el botn derecho del mouse se clickea en la ventana y seespecifica el zoom ms conveniente para la imagen de texto que se tiene. Estarevisin entonces lleva bastante menos tiempo pues se realiza ms rpidamente.Las ventanas de FR se pueden personalizar y acomodar para que cada tarea se msfcil y controlada (pueden moverlas, reducirlas, ampliarlas, cerarlas o abrirlasa gusto; vale la pena dedicarle un poco de tiempo a acomodarlas antes de la

    tarea).

    GUARDAR EL TEXTO RECONOCIDO:FR da toda una serie de opciones para guardar el texto. Yo generalmente loguardo como html, sino como documento de word o como rtf.Tip: Lo guardo como html cuando quiero tener en Word una marcacin adicionalpara saber donde estaban en el documento original los finales de pgina. Alabrir el documento en el explorer, copiar y, luego, pegar en Word. Los fines depgina aparecen marcados por un grfico pequeo que se puede usar como marcadorpara ser removidos a medida que las pginas son ensambladas unas con otras.

    CORRECCIN DEL TEXTO EN WORD (C4):

    Antes de controlar automticamente el texto con el corrector ortogrfico deWord, hago las siguientes reparaciones:

    1) Corrijo los saltos de pgina en medio de un prrafo.

    Truco: Los prrafos interrumpidos por el salto de pgina comnmente no terminanen punto sino en el sino al concluir una palabra (Si es al silabear una palabravase el punto siguiente). Por lo tanto para detectarlos rpidamente se realizauna bsqueda (Editar > buscar [Edit>find]) de "cualquier letra" [any letter] +salto de prrafo [paragraf mark] (^$^p) [pueden cortar y pegar esta orden en laventana de dialogo de "Edit > Find" (Editar > Buscar)]ATENCIN: NO HAY QUE HACER EN ESOS CASOS REEMPLAZO AUTOMTICO PORQUE CAMBIARATAMBIN LA LETRA ("any letter" [=cualquier letra]) DE LA CONSIGNA. Una vez

    ubicado el caso a corregir hay que detenerse y corregirlo manualmente(Actualmente se trabaja en una macro para solucionar esto automticamente).

    Tambin deben buscarse los casos de lnea trunca como ,^p [=coma + salto deprrafo ] o ;^p [=punto y coma + salto de prrafo ], :^p [dos puntos + salto deprrafo ]. Y cambiar el ^p por 1 espacio. [Se trabaja en una macro parasolucionar este tema].

    2) Corregir los saltos de pgina con corte de palabra.

    Solucin: los saltos de pgina con corte de palabra se pueden corregirautomticamente buscando la secuencia "guin + marca de salto de prrafo " (-^p)y reemplazndola por nada. Esto suprimir todos los guiones y los fin de prrafodejando las palabras nuevamente unidas.

    Bsqueda y restablecimiento de las notas a pie de pgina y otros aditamentos enel interior del texto.

    Solucin: las notas a pie de pgina suelen ir numeradas o con una llamada oasterisco. Basta con hacer una bsqueda de "any digit" [cualquier nmero odgito] o del signo que se utilice en el scan y restablecer nuevamente el link;esto es: cortar el texto de la nota, ir al punto donde la nota debe serinsertada, borrar la marca anterior, y seleccionar el comando "insert", luego"footnote", aceptar, y en el espacio destinado a la nota al pie de pgina

    "pegar" el texto cortado. Es lento pero no creo que se lo pueda automatizar ms.

    5) Corregir Ttulos y subttulos para restablecer su diferenciacin y

  • 7/30/2019 56547176 Anon Guia Para La Digitalizacion y Correccion de Textos

    4/5

    jerarquizacin tipogrfica.

    No hay una solucin automtica. Hay que recorrer el texto y comprobarlos.Convendra asignar un estilo a los ttulos y otro a los subttulos (un estilodistinto del texto general y distinto de cualquier otro estilo usado).

    6) Correccin de los errores ortogrficos que a veces no son detectados por el

    corrector automtico:

    a)Confusin del nexo coordinante "y" por "v"

    Solucin automtica: cambiar todos los "(espacio) v (espacio)" por "(espacio) y(espacio)" ya que en la sintaxis castellana "v" no se halla en ningn caso. Detodas formas este cambio automtico conviene realizarlo cuando ya se hayan hechorevisiones generales del texto.

    b) Reemplazo de letras por dgitos, bsqueda de nmero de pgina que hayanescapado al control de layout, y comprobacin de dgitos en el documento:

    Solucin automtica: una vez realizada la correccin ortogrfica, realizar unabsqueda de "any digit" [cualquier nmero o dgito]. Conviene hacer estacomprobacin porque hay veces en que el texto original tiene defectos que puedenhacer que el OCR confunda por ejemplo "l" con "61" y el corrector automtico nolo detectara.

    CORRECCIN CON EL CORRECTOR DE WORD:

    Con todo el texto seleccionado se escoge la opcin "set lenguaje" [definirlenguaje] y se indica el lenguaje del documento para que el corrector funcionecorrectamente; en la exigencia de correccin (herramientas, opciones [=tools,

    options]) se elige "exhaustiva". Y se realiza la correccin interactiva en word,hasta que el programa indique que sta ha terminado.

    Truco:Problema: Control de los nombres propios.Solucin: al usar la opcin "ignore all" [omitir todos] de la ventana delcorrector hacemos que Word vaya construyendoun diccionario del que despus noqueda ningn rastro salvo para ese documento y para la correccin que estamosrealizando en ese momento. Ese diccionario "momentneo" es muy til. Cuandovemos un nombre bien escrito, y le damos "Ignore all" [omitir todos], no vuelvea preguntarnos por l en todo el documento, pero atencin, si vuelve a preguntarpor ese mismo nombre es porque no est igual (puede ser que algo est mal en l:o le falta alguna letra o le falta un acento o alguna letra a sido sustituida, oha sido partido por el silabeo y tiene un guin que no tena cuando la aceptamosla primera vez, y entonces tenemos la oportunidad de corregirlo).

    Correccin manual por lectura del documento (C5):

    Todava los programas no son tan inteligentes como para comprender un documentoy detectar coherencia. Si los distintos correctores han detectado que unacombinacin de letras corresponde a una palabra que figura en sus diccionarios,

    sencillamente la dan por buena.Si el problema est en el original impreso en papel (porque los problemas decorreccin han existido siempre y con alguna ediciones ms que con otras, como

  • 7/30/2019 56547176 Anon Guia Para La Digitalizacion y Correccion de Textos

    5/5

    por ejemplo con las viejas "Nebulae") la mquina no podr ayudarnos. En estesentido es importante: ANTES DE PONERNOS A ESCANEAR UN LIBRO (cosa que implicaconsiderable trabajo si atendemos a que su correccin a conciencia lleva ciertotiempo y esfuerzo) que usemos libros que hayamos ledo y en los que recordemosno haber hallado ningn fallo significativo de este tipo (como que le faltenpginas o cosas as) . No sea que nos encontremos, cuando ya habamos hecho todoel trabajo que alguien le haba arrancado la ltima pgina o que un cuadernillo

    estaba fallado o que se era el primero de 2 tomos de la misma novela.En cambio si ya lo habamos ledo y no haba problemas y si cumplimos todos lospasos de correccin arriba descriptos, creo bien podemos pasarnos este ltimopaso sin culpa.

    NOMENCLATURA:

    Para que el que reciba el documento sepa en que etapa de correccin o de controlse halla recomiendo siempre avisar entre corchetes el estado de control deldocumento. P. ej: un [C12345] es un documento que ha pasado por todas lasetapas de control e incluso fue controlado por lectura directa, en cambi un

    [C1234] todava no ha recibido una supervisin por lectura directa.

    RESPONSABILIDAD DEL CORRECTOR:

    La labor de los ulteriores lectores es muy relativa:- Si es que avisan si encuentran algn problema en el texto.- Si el que recibe el aviso puede realizar los cambios.- Que se pueda efectuar el cambio en todas las copias que existan del archivopara evitar que esa copia defectuosa siga circulando (Cosa no imposible, pero saltsimamente improbable en los casos de deteccin pronta) Pero imposibletotalmente en la mayora de los casos en que existen ciertas demoras y las copia

    ya circulan en cds y por donde quin sabe dnde).