11
Está en: OEI - Programación- CTS+I - Sala de lectura - Infometría e Ingeniería del Conocimiento: Exploración de Datos y Análisis de la Información en vista del Descubrimiento de Conocimientos. Xavier Polanco Segundo Taller Iberoamericano sobre Indicadores en Ciencia y Tecnología, 24-26 de Abril de 1996, Cartagena de las Indias, Colombia Publicado en Hernán Jaramillo y Mario Albornoz (Compiladores), El universo de la medición : La perspectiva de la Ciencia y la Tecnología. COLCIENCIAS, CYTED, RICYT. Bogotá, Tercer Mundo Editores (ISBN 958-9037-54-2), 1997, p. 335-350. RESUMEN: Se presenta una infometría (alternativa a la cientometría tradicional) fundada en las tecnologías de la inteligencia. Basada en indicadores de conocimiento e instrumentos infométricos (NEURODOC, SDOC) que permiten de tratar el contenido de los datos bibliográficos y el lenguaje natural de los textos científicos y técnicos (plataforma ILC). La explotación de bases de datos gracias a motores de clasificación automática (generación de clusters) y mecanismos de representación en mapas, y aún más su integración en un sistema abierto al Internet (sistema HENOCH), constituye un instrumento potente de ayuda al análisis estratégico de la información científica y técnica. 1. Introducción La cantidad de información acumulada en las bases de datos es considerable. Dar un sentido a toda esta información constituye un desafío para los investigadores en ciencias y tecnologías de la información y de la comunicación. Y por sobre todo, es un desafío para los responsables de política científica (en la toma de decisiones y en la definición de programas estratégicos). El punto de vista que expondré, lo llamamos "Infometría", puesto que se apoya en métodos de estadística descriptiva multidimensional (multivariate data analysis). La infometría se inscribe, tal que nosotros la concebimos y la practicamos, en lo que se llama "Descubrimiento de Conocimientos en las Bases de Datos" (DCBD), se emplea igualmente el término "Data Mining" es decir Explotación de Datos (ED), para designar esta actividad de extracción de conocimientos. El DCBD se define como "la extracción, a partir de datos, de una información implícita, desconocida, potencialmente útil" (Kodratoff & Moulet 1995). La perspectiva que deseo destacar es la de una ingeniería del conocimiento (knowledge engineering), capaz de hacer que el procesamiento estadístico de la información científica y técnica (ICT), cientometría tradicional, evolucione hacia el campo de las ciencias y tecnologías del conocimiento (inteligencia artificial y ciencias cognitivas). Esta ingeniería tiene por objetivo la creación de indicadores, métodos e instrumentos de naturaleza matemática, informática y lingüística permitiendo el análisis y la representación cartográfica de la ICT. Infometría e Ingeniería del Conocimiento: Exploración de Datos y Análi... http://www.oei.es/salactsi/polanco4.htm 1 de 11 24/02/2009 09:16 p.m.

Infometría e Ingeniería del

Embed Size (px)

Citation preview

Page 1: Infometría e Ingeniería del

Está en:

OEI - Programación- CTS+I - Sala de lectura -

Infometría e Ingeniería del Conocimiento: Exploración de Datos y Análisis

de la Información en vista del Descubrimiento de Conocimientos.

Xavier Polanco

Segundo Taller Iberoamericano sobre Indicadores en Ciencia y Tecnología, 24-26 de Abril de 1996,

Cartagena de las Indias, Colombia

Publicado en Hernán Jaramillo y Mario Albornoz (Compiladores), El universo de la medición : La

perspectiva de la Ciencia y la Tecnología. COLCIENCIAS, CYTED, RICYT. Bogotá, Tercer Mundo

Editores (ISBN 958-9037-54-2), 1997, p. 335-350.

RESUMEN: Se presenta una infometría (alternativa a la cientometría tradicional) fundada en las

tecnologías de la inteligencia. Basada en indicadores de conocimiento e instrumentos infométricos

(NEURODOC, SDOC) que permiten de tratar el contenido de los datos bibliográficos y el lenguaje

natural de los textos científicos y técnicos (plataforma ILC). La explotación de bases de datos

gracias a motores de clasificación automática (generación de clusters) y mecanismos de

representación en mapas, y aún más su integración en un sistema abierto al Internet (sistema

HENOCH), constituye un instrumento potente de ayuda al análisis estratégico de la información

científica y técnica.

1. Introducción

La cantidad de información acumulada en las bases de datos es considerable. Dar unsentido a toda esta información constituye un desafío para los investigadores en cienciasy tecnologías de la información y de la comunicación. Y por sobre todo, es un desafíopara los responsables de política científica (en la toma de decisiones y en la definición deprogramas estratégicos).

El punto de vista que expondré, lo llamamos "Infometría", puesto que se apoya en

métodos de estadística descriptiva multidimensional (multivariate data analysis). Lainfometría se inscribe, tal que nosotros la concebimos y la practicamos, en lo que se llama"Descubrimiento de Conocimientos en las Bases de Datos" (DCBD), se empleaigualmente el término "Data Mining" es decir Explotación de Datos (ED), para designaresta actividad de extracción de conocimientos. El DCBD se define como "la extracción, apartir de datos, de una información implícita, desconocida, potencialmente útil" (Kodratoff& Moulet 1995).

La perspectiva que deseo destacar es la de una ingeniería del conocimiento (knowledge

engineering), capaz de hacer que el procesamiento estadístico de la información científicay técnica (ICT), cientometría tradicional, evolucione hacia el campo de las ciencias ytecnologías del conocimiento (inteligencia artificial y ciencias cognitivas). Esta ingenieríatiene por objetivo la creación de indicadores, métodos e instrumentos de naturalezamatemática, informática y lingüística permitiendo el análisis y la representacióncartográfica de la ICT.

Infometría e Ingeniería del Conocimiento: Exploración de Datos y Análi... http://www.oei.es/salactsi/polanco4.htm

1 de 11 24/02/2009 09:16 p.m.

Page 2: Infometría e Ingeniería del

2. Tecnologías de la inteligencia

Objetivo de esta sección: definir la naturaleza particular de las tecnologías que hemos

desarrollado en vista de un trabajo de "inteligencia" en el campo de la ICT. Definición:

"social intelligence is the ability to gather, analyze, and apply information to ensure viability

or success in a particular environment" (Cronin & Davenport, 1993).

Si llamamos inteligencia a las operaciones de análisis, evaluación y decisión relativas a ladefinición de estrategias, entonces podemos llamar tecnologías de la inteligencia, lastecnologías de la información al servicio de estas operaciones.

Las tecnologías de la inteligencia son instrumentos informáticos complejos de ayuda a lainteligencia, en este caso particular, en el terreno de la ICT.

Me referiré a dos sistemas concebidos para el análisis de la información, y que hemosdesarrollado en el programa de investigación: la plataforma lingüística-infométrica ILC(sección 8) y el système infométrico HENOCH (sección 7). Los cuales se apoyan en dosprogramas infométricos NEURODOC y SDOC (sección 6). Estos sistemas constituyentecnologías de la inteligencia al servicio del análisis, la evaluación y la programaciónestratégica. Pero antes precisaré la noción de análisis de la información (sección 5) y lacuestión de los indicadores de conocimiento (sección 4)

3. El universo de las bases de datos y la red Internet

Objetivo de esta sección: señalar el contexto actual, y que resumimos a estos dos

factores, [a] el universo de las bases de datos, [b] el Internet como un nuevo espacio de

comunicación y trabajo.

Las nuevas tecnologías de la información y la comunicación (TIC) contribuyen al hechoque la "sociedad industrial" progrese hacia lo algunos llaman la "sociedad de lainformación" (o "post-industrial"), en la cual la información juega un rol económico mayor.Es en este horizonte que las bases de datos constituyen verdaderos yacimientos deconocimientos y que el Internet abre un nuevo espacio de comunicación, intercambios ytrabajo.

a) Bases de datos

La fuente de los datos estadísticos aquí expuestos es Williams (1995). Me limito a citarloscon el solo objeto de que tengamos una idea del contexto que ellas representan, suincremento, sus magnitudes, los tipos de bases y de datos acumulados.

Entre 1975 y 1995, las bases de datos (BD) pasan de 301 a 8.776. Los productores, de200 a 2.778. Los vendedores, de 105 a 1.691. El número de datos acumulados presentaun incremento todavía más espectacular. En 1975, las 301 BD contienen cerca de 52millones de datos. Las 8.776 BD en 1994 contienen aproximadamente 6,3 billones dedatos, un crecimiento que se multiplica por un factor de 120,5.

Distribución de las bases según la naturaleza de los datos (1995) : las BD Bibliográficosrepresentan 72%; las BD Numéricos 18%; BD Iconográficos 5%; las BD Fonográficos 2%;Otras, 3%. De 1985 a 1994, el desarrollo de las BD bibliográficos es de 67% y elincremento de las BD en texto integral es de 547 %. En 1995, el número de BD en textointegral es aproximadamente de 3.462.

Distribución de las BD por categoría: Economia y negocios, 32%; Ciencia, tecnología,ingeniería, 19%; Juridicas (derecho, leyes), 12%; Salud y ciencias de la vida, 9%; Otras3%

Infometría e Ingeniería del Conocimiento: Exploración de Datos y Análi... http://www.oei.es/salactsi/polanco4.htm

2 de 11 24/02/2009 09:16 p.m.

Page 3: Infometría e Ingeniería del

En cuanto a la distribución geopolítica de las BD: en 1994, la distribución es de 63% enlos Estados Unidos de América y 37 % en el resto del mundo. Por otra parte, se observauna evolución de los productores de BD del sector público hacia el privado. En los años1970, los gobiernos eran responsables del 56% de las BD, los sectores no lucrativos yacadémicos e industriales privados del 22%; en 1994, las BD producidas por el comercio yla industria representan 76%; el sector público, 14%; el sector no lucrativo y académico,10%.

b) Internet

El desarrollo de Internet se mide por el número de computadoras conectados a la red enel mundo, estas cifras no son exactas, sin embargo permiten de apreciar el ordenexponencial de la evolución entre 1971 y 1995. Las fuentes son: CNRS & Universités(1995); NSF (National Science Foundation), ftp://NIC.MERIT.EDU/nsfnet/statistics/ (datossegún el trafico observado sobre la red NSFnet). NCC (Network Coordination Center) deRIPE (Réseaux IP Européens) ftp://ftp.ripe.net/ripe/hostcount.

1971 23 1990 313.000

1974 62 1991 617.000

1981 213 1992 1.136.000

1983 562 1993 2.056.000

1985 1.981 1994 3.864.000

1987 28.174 1995 4.000.000

1989 159.000 1996

La evolución del número de computadores conectados al Internet en Europa: 1990,29.230; 1991, 129.652; 1992, 284.374; 1993, 553.357; 1994, 1.029.270

De acuerdo a los datos que se encuentran en los anuarios del Internet (DNS), el númerode computadores y de redes sobre el Internet dobla cada año. El número de utilizadoressigue esta misma curva: éste sería en 1995 del orden de 20 a 30 millones.

No me extrañaría, si hiciéramos un estudio estadístico de estos datos, que este nuevouniverso responde al modelo de distribución de la ley de Pareto o de las leyesbibliométricas bien conocidas de Bradford, Lotka, Zipf; y por lo tanto, al modelo generalde Price (1976) de la "distribución de ventajas acumulativas".

Es en este contexto que postulamos la infometría como una ingeniería del conocimiento(sección 4) al servicio del análisis estratégico de la ICT (sección 5), utilizando tecnologíascapaces de asegurar un trabajo cooperativo en línea sobre el contenido cognitivo de losdatos (secciones 6, 7 y 8). Se dice que para la economía de la información, el valoresencial no reside en el soporte físico (papel o electrónico) sino que en el contenido de lainformación. De ahí, entonces, el interés de la orientación de nuestro programa deinvestigación en infometría y de las tecnologías que hemos concebido y desarrollado.

4. Indicadores de conocimiento

Objetivo de esta sección: la adquisición de conocimientos no se realiza a partir de un

experto o de varios, sino que del conocimiento existente en las BD bibliográficos, con el

objeto de construir bases de conocimientos. Y este trabajo lo llamamos ingeniería del

conocimiento.

El conocimiento por el cual aquí nos interesamos no es el conocimiento subjetivo, es deciraquél que posee cada uno de nosotros como "know-how" (o "expertise"). Es el"conocimiento objetivo" en el sentido de Popper (1979). En particular, aquél que se hace

Infometría e Ingeniería del Conocimiento: Exploración de Datos y Análi... http://www.oei.es/salactsi/polanco4.htm

3 de 11 24/02/2009 09:16 p.m.

Page 4: Infometría e Ingeniería del

objeto en las publicaciones científicas, y sobre el cual podemos trabajar a partir de losartículos científicos y patentes (data-texts).

De acuerdo con esta perspectiva, el ingeniero debe ocuparse no del conocimiento enacción en la competencia de los individuos (sujetos del conocimiento), sino que delconocimiento producido y almacenado en las BD. El objetivo es la creación de bases deconocimiento adaptadas para la toma de decisiones, la definición de estrategias, y laevaluación del estado de la ciencia y la tecnología a un momento dado.

Además es necesario, en este trabajo, apoyarse en una ingeniería lingüística (sección 8),puesto que el "conocimiento objetivo" es un conocimiento escrito, es decir, expresado enel lenguaje escrito y que descubrimos en las publicaciones.

Se estima que es necesario, en la sociedad de la información, crear un sistema métrico delo inmaterial. Podemos considerar que la infometría representa esta tarea de creación deuna métrica de lo inmaterial, es decir, del conocimiento. Y como he dicho, las técnicasinfométricas que hemos desarrollado tienen por objetivo explorar, analizar y representarlos conocimientos no manifiestos pero contenidos en las BD.

Pero para trabajar en esta métrica de lo inmaterial necesitamos definir indicadores deconocimiento. Con respecto a la bibliometría y cientometría tradicionales, podemosinvocar esta distinción: "document and knowledge are not identical entities" (Brookes1980). A la diferencia de la bibliometría y de la cientometría tradicionales, nuestro objetivono es la realización de operaciones estadísticas sobre documentos o datos bibliográficos.Los datos (es decir, referencias bibliográficas) constituyen la materia prima de la cual nosproponemos extraer el conocimiento, utilizando indicadores de conocimiento.

El objetivo es pasar del análisis de documentos (nivel 1 o bibliográfico), de autores oinvestigadores (nivel 2 o sociológico), al estudio del conocimiento que ellos producen ydifunden a través de sus escritos (nivel 3 o del conocimiento objetivo). Para hacerlo,necesitamos un dispositivo capaz de representar el conocimiento publicado y contenidoen los documentos. En las secciones siguientes expongo justamente este dispositivo.

Los lazos que existen entre estos tres niveles de análisis (pues ellos forman una red)permiten de realizar el análisis global de un frente de investigaciones (textos + autores +conocimientos).

Desde un comienzo, fue notorio que había necesidad de desarrollar indicadores deconocimiento (ver la introducción general, así que la contribución de Holton, en Elkana yal. 1978). La estadística bibliográfica (o bibliometría), el análisis de citaciones y deco-citaciones, representan a mi juicio lo que podríamos calificar como cientometría"externalista". La alternativa de las palabras asociadas, propuesta al comienzo de losaños 1980 (Callon y al, 1983), simboliza la apertura hacia una cientometría "internalista" o"cognitiva" y en la cual las palabras claves son indicadores de conocimiento. Es en estatradición que se inscribe nuestro programa de investigación en infometría. Y que podemosresumir así: [1] empleo de las palabras claves para representar el conocimiento contenidoen los documentos; [2] agrupamiento de las palabras claves en clases o clusters pararepresentar los temas alrededor de los cuales se agrega el conocimiento contenido en losdatos bibliográficos, asimismo que los autores, laboratorios, países, y periódicoscientíficos; [3] colocación de los temas o clusters en un espacio bidimensional (Y,X), afinde darles una representación estratégica sobre una carta o mapa del campo científico otecnológico que se analiza.

5. Análisis de la información

Objetivo de esta sección: la noción de análisis de la información desde el punto de vista de

Infometría e Ingeniería del Conocimiento: Exploración de Datos y Análi... http://www.oei.es/salactsi/polanco4.htm

4 de 11 24/02/2009 09:16 p.m.

Page 5: Infometría e Ingeniería del

la infometría, es decir, de un modelo que tiene sus bases en la estadística descriptiva

multidimensional. Definición: la aplicación de técnicas de clasificación automática y de

representación gráfica (cartografía) del contenido cognitivo y factual de los datos. Esta

definición del análisis de la información es operacional a través de los programas

NEURODOC y SDOC (ver sección 6).

El análisis de la información se acerca de lo que se llama "data mining" (Holsheimer &Siebes 1994): "technology used to extract useful information from vast amounts ofaccumulated data, in order to maximize the amount of useful information extracted, bymeans of inductive learning techniques and knowledge representations". En efecto,nosostros buscamos a extraer una información que no es "necessarily a faithful copy ofinformation stored in the database, rather, it is information that can be inferred fromdatabase, but it is hidden among vast amounts of data".

Para realizar esta función de análisis de la información, o "knowledge discovery",utilizamos métodos de clasificación automática que desde el punto de vista de lasmatemáticas pertenecen, al igual que los métodos factoriales, a la estadística descriptivamultidimensional o análisis multidimensional de datos (multivariate data analysis). Losmétodos de clasificación automática (cluster analysis) no pueden ser aplicados que apartir de la representación vectorial de los datos bibliográficos. Por ejemplo, una matriz de7.000 documentos (líneas) y 350 palabras claves (columnas).

El objetivo de las técnicas de clasificación automática es de producir el agrupamiento delíneas o de columnas de una matriz. En general, se trata de objetos o individuos (i. e.artículos científicos) descritos por un cierto número de variables (i.e. fecha, países,autores, laboratorios, revistas) o caracteres (i.e. palabras claves significando el contenido).El recurso a las técnicas de clasificación automática supone que ciertos agrupamientosdeben existir (bottom-up), o al contrario se exige que sean realizados (top-down).

No basta una visualización plana y continua de las asociaciones estadísticas, lo que nosinteresa aquí es la "mise en évidence" de las clases de individuos o de caracteres. Lasclasificaciones se manifiestan bajo diversas formas: sea como particiones de los conjuntosestudiados (líneas o columnas de la matriz), sea como jerarquía de particiones, o biencomo árboles (en el sentido de la teoría de grafos).

Las técnicas de clasificación son esencialmente algorítmicas, es decir que la definición delas clases se realiza de acuerdo a una formulación algorítmica, esto es, una serierecursiva y repetitiva de operaciones. Existen diferentes familias de algoritmos declasificación: [1] algoritmos que producen directamente particiones como los métodos deagregación por centros moviles; [2] algoritmos ascendentes o aglomerativos que procedena la construcción de clases mediante una aglomeración sucesiva de los objetos de dos endos, produciendo una jerarquía de las particiones de los objetos; [3] algoritmosdescendentes o divisores que proceden por dicotomías sucesivas del conjunto de objetos,y que pueden incluso dar lugar a una jerarquía de particiones.

Hemos desarrollado dos técnicas de análisis fundadas en métodos de clasificación quereúnen los objetos en clases por medio de algoritmos que pertenecen a [1] y [2]. Sonrespectivamente los programas NEURODOC y SDOC desarrollados en lenguaje C y enUNIX (Grivel & François 1995). El primero, de inspiración neuronal, está basado en elmétodo de "k-means axiales" (Lelu 1993). El segundo utiliza la técnica standard "singlelinkage" para realizar lo que en cientometría se conoce como "co-word analysis", es decirel "método de las palabras asociadas" (Callon y al. 1993). El objetivo común es deseñalar los temas contenidos en una masa de información bibliográfica, alrededor de loscuales se agrega esta información (i.e. artículos, periódicos, autores, laboratorios). Enseguida, de visualizar estos temas sobre una carta o mapa, cuestión de poder apreciarsus posiciones relativas en el espacio de conocimiento.

Infometría e Ingeniería del Conocimiento: Exploración de Datos y Análi... http://www.oei.es/salactsi/polanco4.htm

5 de 11 24/02/2009 09:16 p.m.

Page 6: Infometría e Ingeniería del

Además, los dos programas utilizan, en tanto que tecnologías de la inteligencia, la técnicahipertexto (red activa de nodos y relaciones), que permite al usuario de navegar, odesplazarse, al interior de los temas, sirviéndose de cartas interactivas. Lo que representauna ayuda importante para la visualización y explotación de los resultados de laclasificación automática.

La difusión de las aplicaciones de NEURODOC y SDOC puede hacerse de dos maneras,sea utilizando como soporte diskettes para Hypercard-MacIntosh y Winhelp-PC, seadirectamente por Internet mediante una interface W3 (ver seccion 7).

6. Generación de clusters y mapas

Objetivo de esta sección: los algoritmos de clasificación empleados para la generación de

los clusters; la propiedades de los clusters producidos por NEURODOC y SDOC,

asimismo que de los mapas, en tanto que instrumentos de análisis estratégico de la ICT.

Definición: entendemos por análisis estratégico de la ICT, aquél cuyo propósito es de

responder a la cuestión ¿quiénes trabajan sobre qué temas, en dónde, y cuándo? (qui fait

ou sait quoi, où et quand?; who is doing what, where, and when?).

a) Métodos

K-means axiales (NEURODOC): El método de "k-means axiales" (Lelu 1993) pertenece ala familia de algoritmos de clasificación por centros mobiles, y es una variante delalgoritmo bien conocido "k-means" de MacQueen, en su version adaptativa, y delalgoritmo de Forgy, en el caso iterativo. Formalmente, este método está ligado a losmodelos neuronales aplicando una ley de aprendizaje no supervisado de tipo "winnertakes all" (Lelu & François 1992). En lugar de construir los clusters en función de ladefinición de centros de gravedad como es habitual, las clases son aquí definidas pormedio de K semi-ejes (maximizando el criterio de inercia inter-ejes).

Co-ocurrencia & Single Linkage (SDOC): A partir de la co-ocurrencia, este métodoutiliza coeficientes estadísticos para normalizar el valor de la asociación entre dos

términos (o palabras claves). El índice utilizado, es Ci2 / Ci*Ci, cuyos valores varían entre 0

y 1, Cij es la suma de las co-ocurrencias de las palabras claves i y j, Ci la frecuencia de la

palabra clave i, Cj la frecuencia de la palabra clave j. Este índice llamado de

"equivalencia" (Michelet 1988) se asemeja a los coeficientes bien conocidos de Dice, de

Jaccard, o del cosinus (o coeficiente de Salton). Para la generación de clusters, SDOCaplica un algoritmo de "single-linkage" (clasificación jerárquica ascendente), cuyoparámetro es la definición de la talla maximal (número de palabras claves) por cluster.

b) Clusters

Los clusters NEURODOC: El algoritmo de k-means axiales, parametrado por el númeromaximal de clusters deseados, y el umbral de las coordenadas de los documentos y delas palabras claves sobre los ejes representando las clases, permite de construir clustersque tienen la propiedad de recubrirse, en el sentido que un documento o una palabraclave puede pertenecer simultáneamente a varios clusters. Además, los documentos y laspalabras claves de cada cluster están ordenados de acuerdo a un grado de semejanza altipo ideal del cluster (que es un documento o una palabra clave, ficticios y que seencuentran colocados exactamente sobre el eje de la clase en el espacio geométrico).

Los clusters SDOC: Los clusters están constituidos de palabras asociadas entre ellas(asociaciones internes o intra-cluster). Los clusters pueden presentar ademásasociaciones entre ellos (inter-clusters), cuando existe una asociación entre dos palabrasclaves perteneciendo a dos clusters diferentes (asociación externe), y la talla del nuevo

Infometría e Ingeniería del Conocimiento: Exploración de Datos y Análi... http://www.oei.es/salactsi/polanco4.htm

6 de 11 24/02/2009 09:16 p.m.

Page 7: Infometría e Ingeniería del

cluster que habría resultado de la reunión de estos dos clusters es superior a la tallamaximal definida. De esta manera, cada clusters representa un grafo de palabrasasociadas (micro-red) ligado a otros por las asociaciones inter-cluster o externas(macro-red).

Después del proceso de clasificación de las palabras claves, los documentos sonafectados a los clusters. Un documento es afectado a un cluster si en las la palabrasclaves (de son indización) existe al menos una pareja de palabras claves que puedenconstituir una asociación interna o externa del cluster.

c) Mapas

Para visualizar la posi¢ión de los clusters en un mapa, NEURODOC utiliza un métodofactorial standard, el análisis en componentes principales (ACP). La interpretación (olectura) del mapa obedece entonces a los criterios del ACP. La proximidad entre dostemas sobre el mapa indica que ellos están definidos por palabras claves caracterizandotemas conexos. La posición de los temas en el espacio se interpreta en función de losejes factoriales. En principio, los temas mejor representados se sitúan en lasextremidades de los dos ejes.

SDOC utiliza los valores de "densidad" y "centralidad" propios a cada cluster y que sonlos valores de las asociaciones intra-clusters (densidad) e inter-clusters (centralidad); deesta forma la gráfica no es una distribución de puntos en función de las coordenadasfactoriales, sino que es un red que el hipertexto permite al usuario de actualizar y navegarsiguiendo las asociaciones inter-clusters, de un cluster a un otro, asimismo que al interiordel clusters como hemos visto en [b].

La "densidad" de un cluster es el valor medio de las asociaciones internes del cluster(sobre Y). La "centralidad" es el valor medio de sus asociaciones externas (sobre X).

7. El sistema HENOCH

Objetivo de esta sección: presentar la integración de la infometría (sección 4, 5 y 6) en un

sistema de información abierto al Internet y al servicio del análisis estratégico de la ICT.

Este sistema responde al proyecto de incorporar el análisis infométrico de la ICT en elproceso de producción del INIST: [1] interrogación periódica de las bases de datos, [2]procesamiento de los datos utilizando los instrumentos infométricos (NDOC, SDOC), demanera periódica y regular, [3] descargar estas aplicaciones en una BD organizada deacuerdo a un SGBD, (por ejemplo ORACLE, es decir, relacional, podemos por ciertoconsiderar la posibilidad de evolución hacia un sistema orientado-objeto), [4] acceso a laBD infométrica a través de una arquitectura cliente-servidor, [5] una interface usuarioWWW en el Internet permite la visualización y exploración de los resultados (a distancia yen línea).

En la figura 1 se llama "sistema infométrico" a los elementos que han sido presentados enlas secciones 4, 5 y 6, cuando se trata de los programas NDOC y SDOC, podemos hablarde "motores de clasificación automática y de cartografía". De la aplicación de estosmotores sobre los datos (materia prima) resulta una información elaborada que esalmacenada en una BD. El SGBD permite la organización, el acceso y la gestión de estaBD. La interface usuario pone en forma los datos del SGBD para presentarlos al usuario,y transmite las demandas del usuario al SGBD. El sistema de gestión (SGBD) interpretala demanda y obtiene les informaciones contenidas en los datos bibliográficos y en losclusters (BD).

Se trata de un dispositivo que permite, a una escala industrial, y abierto a la red mundial

Infometría e Ingeniería del Conocimiento: Exploración de Datos y Análi... http://www.oei.es/salactsi/polanco4.htm

7 de 11 24/02/2009 09:16 p.m.

Page 8: Infometría e Ingeniería del

del Internet, de practicar metodicamente el procesamiento infométrico de la ICT, y detrabajar en cooperación y a distancia. Este sistema es multibase (en input), es decir,independiente de las BD de donde provienen los datos bibliográficos. Los resultados delas aplicaciones constituyen "perfiles" (output) y el derecho de acceso puede serreservado o público según los casos.

Figura 1: El sistema HENOCH

7. La plataforma lingüística-infométrica ILC

Objetivo de esta sección: el aporte de la ingeniería lingüística al sistema infométrico,

¿como acercarse y representar el conocimiento escrito apoyándose en instrumentos

lingüísticos capaces de revelar las formas terminológicas utilizadas por los investigadores

en los textos científicos y técnicos?.

Definición: llamamos lingüística computacional o informática (o informática lingüística), elprocesamiento informático del lenguaje natural (en inglés, NLP, es decir: "naturallanguage processing"), permitiendo a los instrumentos infométricos (NEURODOC, SDOC)de operar a partir del texto integral (full-text) y definir indicadores lingüísticos. ILC significa"Infometría, Linguística, Conocimento". En esta sección resumo lo ya expuesto en(Polanco y al. 1995a ; 1995b).

La plataforma ILC, ver figura 2, permiten detectar los términos que varían y aquellos queno varían en el lenguaje científico empleado por los autores de los textos. Cuando se tratadel lenguaje natural, debemos tener en cuenta el idioma, su sintaxis (inglés, francés,español). Así, por ejemplo, el término científico "Electron Loss" es reconocido a partir delas formas lingüísticas concretas "electron beam losses" (variación de inserción), "loss offe 3d electrons" (variación de permutación) y "electron and energy loss" (variación decoordinación).

Infometría e Ingeniería del Conocimiento: Exploración de Datos y Análi... http://www.oei.es/salactsi/polanco4.htm

8 de 11 24/02/2009 09:16 p.m.

Page 9: Infometría e Ingeniería del

Figura 2: La plataforma ILC

La hipótesis que guía nuestro trabajo en el terreno de la lingüística computacional, es quela "variación" es un fenómeno lingüístico que puede ser utilizado como indicador deconocimiento en el análisis infométrico de la información.

Identificamos tres categorías de variación: [1] la "variación flexional", las formas singular yplural de los sustantivos ("deficiency - deficiences"), y las formas verbales ("acoustic test -acoustic testing"); [2] la "variación sintáctica" que con la anterior es central en nuestroprocedimiento de análisis lingüístico de los textos científicos; [3] la "variación morfo-derivacional" integra en una terminología los fenómenos de sustantivación y deadjetivación (sustantivación del adjetivo, sustantivación del verbo, adjetivación de lossustantivos).

Tratamos tres clases de variación sintactica: [1] la "variación de inserción", ella conciernetoda palabra al interior de un grupo nominal, ejemplo: "X ray absorption spectroscopy" esasociado al término "X ray spectroscopy"; [2] la "variación de permutación", ella conciernetodas las formas coordinadas entre palabras (adjetivos o sustantivos), ejemplo:"differential and integrated cross sections" es asociado al término "Differential crosssection"; [3] la "variación de coordinación", ella implica todas las palabras o los grupos depalabras que pueden permutar alrededor de un elemento (preposiciones o secuenciasverbales), ejemplo: "range of power modulation fequency" es asociado al término"Frequency range"

Dándole a estos fenómenos lingüísticos una formulación cuantitativa, buscamos producirun nuevo tipo de indicador, un indicador lingüístico de conocimiento mucho mas rico(desde el punto de vista de la información que aporta) que las simples palabras clavesque representan verdaderos estereotipos.

Para utilizar la variación desde un punto de vista infométrico, hemos definido índices devariación. Se trata del "índice de variación" de los términos, Vari=n/N, es decir, la variación

del término i se expresa por el cociente del número de documentos indexados por estemismo término i bajo una forma invariante, n, y el número total, N, de documentosindizados por el mismo término i. Y el "índice de productividad de la variación en losclusters", esto es, el número total de la formas variantes de los términos de un clusterdividido por el número de términos del cluster.

El aspecto lingüístico del análisis infométrico consiste en utilizar el índice de variaciónpara caracterizar los clusters, en función del fenómeno lingüístico de la variación quehemos observado en los textos mismos. Ello permite de ordenar los clusters según el"índice de productividad de la variación en los clusters". La intención es de utilizar esteíndice para detectar, al interior de esta unidad (cluster=indicador de un tema deinvestigación), el grado de estabilidad o de variación de los términos utilizados en los

Infometría e Ingeniería del Conocimiento: Exploración de Datos y Análi... http://www.oei.es/salactsi/polanco4.htm

9 de 11 24/02/2009 09:16 p.m.

Page 10: Infometría e Ingeniería del

textos científicos y que componen un cluster.

Asociando lingüística computacional e infometría, avanzamos en el terreno de unaingeniería al servicio del análisis estratégico de la ICT, interesada por captar su contenido,es decir, el conocimiento. Puesto que ahora disponemos de instrumentos, métodos eindicadores para responder al problema de cómo abordar y representar el conocimientoescrito: técnicas lingüísticas capaces de tratar las formas terminológicas utilizadas por losinvestigadores en los textos científicos y tecnológicos. La cuestión de fondo es poderdistinguir las formas "normales" a través de las cuales se expresa un cierto consensoscientífico o tecnológico, la nomenclatura invariante de una disciplina, de las formas"variantes" que detectamos empíricamente al nivel del lenguaje escrito.

Referencias Bibliográficas

B. Brookes, [1980] "The foundations of information science. Part I. Philosophical aspects",

Journal of Information Science, vol. 2, 1980, p. 125-133.

M. Callon, J-P Courtial, W A Turner, S. Bauin [1983] “>From Translation to Problematic

Networks: An Introduction to Co-Word Analysis”, Social Science Information, vol. 22, 1983,p. 191-235.

M. Callon, J-P. Courtial, H. Penan [1993] La Scientométrie. Paris, Presses Universitairesde France, Que sais-je? n· 2727, 1993.

CNRS & Universités [1995] L'Internet professionnel. Paris, Editions du CNRS, 1995.

B. Cronin & E. Davenport [1993] "Social Intelligence", Annual Review of Information

Science and Technology, vol. 28, 1993, p. 3-44.

Y. Elkana, J. Lederberg, R.K. Merton, A. Tackray, H. Zuckerman (éds.) [1978] Toward a

Metric of Science: The advent of Science Indicators. New York, Wiley, 1978.

L. Grivel & C. François [1995] "Une station de travail pour classer, cartographier etanalyser l'information bibliographique dans une perspective de veille scientifique et

technique", SOLARIS 2, Presses Universitaires de Rennes, 1995, p. 81-112.

M. Holsheimer & A.P.J.M. Siebes [1994] Data Mining: the serach for knwoledge in

databases. Amsterdam, Centruum voor Wiskunde en Informatica (CWI), Report CS-R9406(ISSN 0169-118X), 1994.

Y. Kodratoff & M. Moulet [1995] "Découverte de connaissances dans les bases dedonnées : présentation du problème et état de l'art", Actes des 5èmes JournéesNationales PRC-GDR Intelligence Artificielle, Nancy, 1,2,3 février 1995, p. 283-296.

A. Lelu & C. François [1992] "Automatic Generation of Hypertext in Information Retrieval

Systems", Proceedings ECHT'92 (Milan, Italy). D. Lucarella et al. (eds). New York: ACMPress, 1992, p. 112-121.

A. Lelu [1993] Modèles neuronaux pour l'analyse de données documentaires et textuelles.Thèse de Doctorat, Université de Paris 6, 1993.

Michelet [1988] L'Analyse des Asocciations. Thèse de Doctorat. Université de Paris 7,1988.

X. Polanco L. Grivel, J Royauté [1995a] "How to Do Things with Terms in Informetrics:

Terminological Variation and Stabilization as Science Watch Indicators", Proceedings 5th

Infometría e Ingeniería del Conocimiento: Exploración de Datos y Análi... http://www.oei.es/salactsi/polanco4.htm

10 de 11 24/02/2009 09:16 p.m.

Page 11: Infometría e Ingeniería del

International Conference on Scientometrics and Informetrics, River-Forest (Chicago), USA,June 7-10, p. 435-444.

X. Polanco, J. Royauté, L Grivel, A. Courgey [1995b], "Infométrie et LinguistiqueInformatique : Une approche linguistico-infométrique au service de la veille scientifique et

technologique", Les systèmes d’information élaborée, Mai 30-Juin 2, Ile Rousse, Corse,France.

K.R. Popper [1979] Objective Knowledge. Oxford, The Clarendon Press, 1979.

de Solla Price [1976] "A General Theory of Bibliometric and Other Cumulative Advantage

Processes", Journal of the American Society for Information Science, vol. 27, sept-oct.1976, p. 292-306.

M. Williams [1995] "Database Publishing Statistics", Publishing Research Quarterly, vol.11, n· 3, 1995, p. 3-9.

Formulario de suscripción gratuita a las Novedades del Programa CTS+I

Sala de lectura CTS+I

Ciencia, tecnología, sociedad e innovación

Organización de Estados Iberoamericanos

Buscador | Mapa del sitio | Contactar

| Página inicial OEI|

Infometría e Ingeniería del Conocimiento: Exploración de Datos y Análi... http://www.oei.es/salactsi/polanco4.htm

11 de 11 24/02/2009 09:16 p.m.