61
Agentes inteligentes en la búsqueda y recuperación de información Pablo Lara Navarra José Angel Martínez Usero PLANETA UOC

agentes inteligentes busq y recu infor

Embed Size (px)

Citation preview

Page 1: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Pablo Lara Navarra

Joseacute Angel Martiacutenez Usero

PLANETA UOC

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

2

Primera edicioacuten julio 2004

Segunda edicioacuten revisada y ampliada julio 2006

copy Planeta- UOC SL

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero

Av Tibidabo 39-43 08035 Barcelona

ISBN 84-9707-571-4

Ninguna parte de esta publicacioacuten incluido el disentildeo general y la cubierta

puede ser copiada reproducida almacenada o transmitida de ninguna

forma ni por ninguacuten medio sea eacuteste eleacutectrico quiacutemico mecaacutenico oacuteptico

grabacioacuten fotocopia o cualquier otro sin la previa autorizacioacuten escrita de

los titulares del copyright

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

3

Indice de contenidos

Introduccioacuten 5

1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten 6

11 El lenguaje de interrogacioacuten 6

111 Operadores loacutegicos o booleanos 6

112 Operadores posicionales 8

1121 Operadores posicionales relativos 8

1122 Operadores posicionales absolutos 9

113 Operadores de truncamiento y de liacutemitecomparacioacuten 9

12 Las herramientas de recuperacioacuten de informacioacuten web 10

121 Tipos de herramientas de buacutesqueda y recuperacioacuten 11

1211 Los directorios o iacutendices temaacuteticos 11

1212 Los motores de buacutesqueda 12

1213 Los agentes inteligentes 12

122 Funcionamiento de los motores de buacutesqueda 14

123 Los metabuscadores 15

124 Tendencia actual de los motores de buacutesqueda 15

13 La Infranet o Internet invisible 16

131 Los recursos de la Internet invisible 16

132 La recuperacioacuten de la informacioacuten en la Internet invisible 17

14 Bibliografiacutea 18

15 Casos praacutecticos 21

151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda 21

152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda 24

16 Anexo Introduccioacuten a Google 26

2 El posicionamiento en los motores de buacutesqueda 31

21 Concepto de posicionamiento web 31

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

4

22 Criterios baacutesicos para el posicionamiento 31

221 Criterios de optimizacioacuten internos a la paacutegina web 32

222 Criterios de optimizacioacuten externos a la paacutegina web 34

23 Los metadatos y el posicionamiento web 35

231 Concepto de metadatos 35

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten 37

2321 La iniciativa Dublin Core 38

2322 Los elementos Dublin Core 38

24 La optimizacioacuten de las palabras clave 39

25 La planificacioacuten de un proyecto de posicionamiento 41

251 Plan de posicionamiento 41

252 Alta en los principales buscadores 41

253 Enlaces patrocinados 42

254 Servicios de consultoriacutea 43

26 Bibliografiacutea 44

27 Caso praacutectico Plan de posicionamiento web 45

3 Los agentes inteligentes de informacioacuten 50

31 Concepto de agente inteligente 50

32 Caracteriacutesticas de los agentes 51

33 Aplicaciones de los agentes 51

34 Clasificacioacuten de los agentes inteligentes 53

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten 54

36 Bibliografiacutea 55

37 Caso praacutectico Comparacioacuten Google versus Copernic 58

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

5

Introduccioacuten

Los mayores motores de buacutesqueda apenas cubren un 20-25 del web mientras

que los principales iacutendices es dudoso que lleguen a un 5 La desventaja de este

ingente volumen de informacioacuten es que por razones de celeridad en la respuesta

obliga a limitar las prestaciones de buacutesqueda de forma que suelen faltar ciertas

capacidades avanzadas Otros problemas importantes derivan de la diferente

cobertura de la red (las sedes comerciales y de los paiacuteses desarrollados estaacuten mejor

indizadas) el elevado porcentaje de enlaces no activos y la desactualizacioacuten de los

recursos debido a frecuencia de revisioacuten muy baja o inadecuada

Las herramientas de motor de buacutesqueda estaacuten instaladas en el ordenador remoto y

por tanto limitadas por restricciones generalmente ajenas al usuario final Una

nueva generacioacuten de herramientas y la adopcioacuten de nuevas estrategias pueden

ayudar significativamente asiacute como el reconocimiento de nuevas realidades y el

descubrimiento de fuentes ocultas de datos relevantes hasta la fecha

frecuentemente infrautilizados

Las herramientas de segunda generacioacuten instaladas en el ordenador cliente son

capaces de tratar con grandes voluacutemenes de informacioacuten automatizando tareas

que incrementan la productividad final de los recursos recuperados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

6

1 Los motores de buacutesqueda y la recuperacioacuten de la

informacioacuten

La recuperacioacuten de la informacioacuten (RI) es una operacioacuten en la que se interpreta una

necesidad de informacioacuten de un usuario y se seleccionan los documentos maacutes

relevantes capaces de solucionarla En el contexto de Internet se puede definir el

objetivo de la recuperacioacuten como la identificacioacuten de una o maacutes referencias de

paacuteginas web que resulten relevantes para satisfacer una necesidad de informacioacuten

11 El lenguaje de interrogacioacuten

Un lenguaje de interrogacioacuten es el conjunto de opciones (oacuterdenes operadores y

estructuras) que organizados seguacuten normas loacutegicas permiten la consulta de los

recursos de informacioacuten mediante una expresioacuten llamada ecuacioacuten de buacutesqueda

Las oacuterdenes son aquellas palabras o abreviaturas que indican al sistema las

acciones a ejecutar (buscara la expresioacuten mostrar los registros resultantes

de una buacutesqueda ejecutar un perfil de usuario)

Los operadores son los encargados de expresar las relaciones que

mantienen entre siacute los teacuterminos que pueden definir las necesidades

informativas del usuario

Si bien inicialmente las ecuaciones de buacutesqueda se formulaban mediante la

formulacioacuten textual de expresiones la implantacioacuten de interfaces graacuteficas a partir

de los antildeos 80 llevoacute al uso de nuevos entornos de seleccioacuten donde el usuario soacutelo

debe introducir los teacuterminos y guiarse por un sistema de botones y menuacutes

desplegables

111 Operadores loacutegicos o booleanos

Llamados asiacute en honor a George Boole matemaacutetico del siglo XIX que fue el

precursor de la loacutegica simboacutelica y el aacutelgebra de Boole (teoriacutea de conjuntos) es uno

de los meacutetodos maacutes extendidos de especificar las buacutesquedas en la mayoriacutea de

sistemas Se basan en tres operaciones loacutegicas baacutesicas

Interseccioacuten de conjuntos AND Y Operador que indica que deben estar

incluidos en los resultados de la buacutesqueda los teacuterminos unidos por esta

partiacutecula Es un operador restrictivo puesto que elimina aquellos

documentos en los que no aparecen todos los teacuterminos de la expresioacuten de

buacutesqueda

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Ejemplo bullseye AND copernic indica que deben aparecer en el documento

las dos palabras si no es asiacute se excluiraacute el documento

Unioacuten o suma de conjuntos OR O Indica que cualquiera de las palabras

que esteacuten unidos por este operador debe aparecer en el documento las

restantes no tienen que estar presentes Es un operador de ampliacioacuten pues

soacutelo deberaacute aparecer uno o alguno de los teacuterminos de la expresioacuten de

buacutesqueda

Ejemplo bullseye OR copernic puede aparecer en el documento la palabra

bullseye o copernic o ambas

Exclusioacuten de conjuntos NO AND NOT Operador que excluye de un

documento la palabra no deseada Es un operador de restriccioacuten pues se

seleccionan aquellos documentos que contienen el primer teacutermino de

buacutesqueda pero no el segundo

Ejemplo Knowbots AND NOT copernic recupera todos los documentos que

contengan la palabra Knowbots pero que no contengan la palabra copernic

En la elaboracioacuten de una ecuacioacuten de buacutesqueda es habitual la combinacioacuten de maacutes

de uno de estos operadores por lo que seraacute necesario conocer en profundidad el

sistema para saber las prioridades a la hora de su ejecucioacuten puesto que los copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

7

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

8

resultados pueden variar sustancialmente A menudo estas prioridades vienen

marcadas por el uso de pareacutentesis de manera que se ejecuta en primer lugar el

operador que une los teacuterminos que estaacuten entre pareacutentesis

Ejemplo (bullseye OR copernic OR lexibot) AND (agentes inteligentes)

recupera los documentos que contengan los terminos agentes inteligentes y

copernic o bullseye o lexibot

112 Operadores posicionales

Los operadores posicionales toman como partida la posicioacuten del teacutermino en

relacioacuten a su contexto es decir en relacioacuten a los otros teacuterminos y al documento

Estos operadores se pueden dividir en dos tipos los relativos y los absolutos

1121 Operadores posicionales relativos

A menudo llamados operadores de adyacencia o proximidad Permiten definir al

sistema de buacutesqueda la distancia que puede existir entre un teacutermino y otro Se

pueden buscar teacuterminos que esteacuten juntas separadas por varias palabras o

caracteres que se encuentren en una misma frase o un mismo paacuterrafo e incluso

si se debe o no respetar el orden de los teacuterminos Existe una gran variedad de

operadores de adyacencia y expresan diferentes situaciones seguacuten los sistemas

NEAR operador que obliga a estar a un nuacutemero determinado de distancia

las palabras claves a recuperar Este nuacutemero variacutea en funcioacuten de los

diferentes programas de recuperacioacuten de la informacioacuten asiacute por ejemplo

mientras en Altavista significa un maacuteximo de 10 palabras entre los

teacuterminos en WebCrawler significa un maacuteximo de 2 palabras

Ejemplo bullseye NEAR copernic recupera textos con frases como

ldquobullseye es mejor que copernicrdquo o ldquocopernic tiene maacutes motores que

bullseyerdquo

NEARN realiza la misma operacioacuten que NEAR pero N es sustituido por la

distancia en palabras que deben estar separados los teacuterminos de

buacutesqueda

Ejemplo bullseye NEAR5 copernic recupera todos los documentos que

aparezcan los dos terminos y cuya separacioacuten no sea mayor a cinco

palabras

Otra posibilidad es hacer una buacutesqueda de una frase exacta Consiste en la

interseccioacuten de las palabras de buacutesqueda que ademaacutes estaacuten adyacentes y en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

9

el orden en que se describen

ldquo rdquo emplear las comillas expresa que debe aparecer la frase exacta y en el

mismo orden

Ejemplo ldquocomparacioacuten de agentes inteligentesrdquo tiene que aparecer esta frase

en los documentos para que sean recuperados

1122 Operadores posicionales absolutos

Se trata de operadores que permiten buscar el o los teacuterminos en un lugar

determinado del documento En general son operadores delimitadores de un

campo

Link recupera todos los links que contenga el teacutermino buscado

Ejemplo Linkldquoagentes inteligentesrdquo recupera todos los links que contenga la

frase exacta agentes inteligentes

Title recupera en los tiacutetulos de web correos etc la palabras deseadas

Ejemplo Titleldquoagentes inteligentesrdquo recupera uacutenicamente del tiacutetulo la frase

exacta

Url busca url que contengan los teacuterminos de la ecuacioacuten de buacutesqueda

Ejemplo Urlldquougresrdquo presenta todos las paacuteginas web de la Universidad de

Granada

Body recupera del cuerpo del documento el conjunto de palabras deseadas

Ejemplo Bodyldquoagentes inteligentesrdquo recupera del cuerpo del documento

uacutenicamente la frase exacta de la ecuacioacuten de buacutesqueda

113 Operadores de truncamiento y de liacutemitecomparacioacuten

Operadores de comparacioacuten o de rango Limitan la buacutesqueda mediante una

expresioacuten que establece un rango de valores especialmente numeacutericos

Corresponden a formas tipo ldquoigual querdquo(simbolizado por = EQ) ldquomayor

querdquo (simbolizado por gt GT) ldquomenor querdquo( simbolizado por lt LT) o

operadores de inteacutervalos (simbolizado por un guioacuten to gtlt)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

10

Operadores de truncamiento o maacutescaras Los truncamientos ayudan a

buscar todas las posibilidades semaacutenticas de un teacutermino por ejemplo sus

derivados fijados por prefjiacioacuten o sufijacioacuten las variantes leacutexicas Asiacute los

llamados caracteres comodiacuten como el asterisco () o la interrogacioacuten ()

sustituyen un caraacutecter o un conjunto de caracteres

Ejemplo document recupera todas las palabras que contengan esta raiz

por ejemplo documento documentos documentalista documentado etc

12 Las herramientas de recuperacioacuten de informacioacuten web

En Espantildea existen diferentes imprecisiones terminoloacutegicas a este respecto Por un

lado a los motores de buacutesqueda se les ha denominado con otros teacuterminos

sinoacutenimos tales como buscadores rastreadores webcrawlers agentes iacutendices

directorios Por otro durante cierto tiempo se han confundido tres tecnologiacuteas que

ahora tienen autonomiacutea propia los iacutendices temaacuteticosdirectorios los motores de

buacutesqueda y los agentes inteligentes

En principio la diferencia entre motor de buacutesqueda e iacutendice temaacutetico o directorio

parece clara Un iacutendice temaacutetico es una paacutegina web (sitio web) en donde las

distintas materias se encuentran organizadas en torno a un conjunto de epiacutegrafes

Esta diferencia se tambalea cuando nos encontramos con iacutendices temaacuteticos como

Yahoo (wwwyahoocom) que presenta un interfaz similar a los motores e incluso

permite realizar buacutesquedas sobre los recursos que tiene sistematizados En general

la diferencia radica en el hecho de que los iacutendices temaacuteticos contienen direcciones

que son recopiladas organizadas y clasificadas manualmente y la buacutesqueda se lleva

a cabo exclusivamente sobre los recursos indexados del directorio

Los agentes inteligentes pueden realizar una serie de tareas sin que los humanos u

otros agentes les tengan que decir queacute hacer a cada paso que dan en su camino

Se diferencian de los motores de buacutesqueda en que eacutestos albergan contenidos

estaacuteticos (aunque se actualizan con cierta frecuencia) y responden directamente a

las peticiones de los usuarios Si un motor de buacutesqueda pudiera almacenar

peticiones de los usuarios y notificarles la llegada de informacioacuten uacutetil entonces el

motor de buacutesqueda seriacutea un agente Sin embargo la diferenciacioacuten no es

radicalmente clara puesto que se denominan agentes inteligentes a softwares que

realmente no lo son

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

11

121 Tipos de herramientas de buacutesqueda y recuperacioacuten

A continuacioacuten se presenta una definicioacuten estaacutendar de cada una de las herramientas

de buacutesqueda y recuperacioacuten de informacioacuten mencionadas anteriormente

1211 Los directorios o iacutendices temaacuteticos

Los directorios o iacutendices presentan una seleccioacuten de recursos webs organizados

siguiendo una estructura o clasificacioacuten jeraacuterquica de materias que va de categoriacuteas

maacutes amplias a categoriacuteas maacutes especiacuteficas Los directorios se exploran mediante la

navegacioacuten (browsing) de una base de datos de documentos web compilados

recogidos y organizados manualmente por expertos (ayudados por robots de

localizacioacuten automaacutetica de recursos en la red) La buacutesqueda jeraacuterquica sirve al

usuario de guiacutea permitiendo acceder a la informacioacuten en el contexto temaacutetico al

que pertenece y en relacioacuten a otras aacutereas temaacuteticas

Los directorios tambieacuten presentan un motor de buacutesqueda interno para localizar

directamente recursos de la base de datos mediante diferentes ecuaciones de

buacutesqueda y palabras clave obviando de esta manera el uso del directorio temaacutetico

Los sistemas de buacutesqueda por palabras pueden actuar de dos maneras

Sobre la clasificacioacuten en una seccioacuten de ella (cuando por ejemplo

sabemos en queacute parte del directorio podemos localizar la informacioacuten

que nos interesa)

Sobre las paacuteginas pero en este caso se limitan a la informacioacuten

recopilada por el iacutendice (fundamentalmente sitios web no paacuteginas)

Asiacute pues la buacutesqueda de informacioacuten en los directorios puede hacerse bien de

forma guiada mediante clasificaciones jeraacuterquicas bien a partir de teacuterminos

especiacuteficos

Los directorios maacutes comunes son aquellos que ofrecen una navegacioacuten por temas

y con una cobertura generalista como por ejemplo Yahoo (Yet Another

Hierarchical Officious Oracle) Sin embargo tambieacuten existen directorios que

permiten por ejemplo una navegacioacuten geograacutefica (Virtual Tourist

httpwwwvirtualtouristcom ) o directorios especializados

Los servicios de consulta basados en directorios han ido incorporando prestaciones

y han evolucionado hacia lo que actualmente se llaman portales un conjunto de

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

12

servicios que pretende satisfacer todas las necesidades de los usuarios de Internet

(cuentas de correo electroacutenico chat paacuteginas amarillas y blancas informacioacuten

metereoloacutegica y de la bolsa servicio de noticias)

1212 Los motores de buacutesqueda

Los motores de buacutesqueda o buscadores tienen sus antecedentes en los simples

listados de direcciones de recursos y documentos de la red y son la respuesta al

raacutepido volumen de crecimiento dela red que supera la capacidad de los recursos

humanos de los directorios ndash que por ello suelen ser selectivos - Los buscadores

son bases de datos creadas por indizacioacuten automaacutetica del texto completo de las

paacuteginas web y realizada por un programa llamado robot Este robot loacutegico o

arantildea (spider) explora de forma automaacutetica los servidores extrayendo las palabras

maacutes significativas de cada paacutegina y creando un iacutendice de buacutesqueda Aun cuando

los programas lleguen a ser similares no existen dos programas de buacutesqueda

exactamente similares en teacuterminos de tamantildeo velocidad y contenido no existen

dos motores de buacutesqueda que utilicen coincidentemente el mismo listado de

relevancia y tampoco cada motor de buacutesqueda ofrece las mismas opciones de

buacutesqueda Por lo tanto su buacutesqueda resultaraacute diferente en cada motor utilizado La

diferencia podriacutea no ser mucha pero siacute significativa

Existe una gran porcioacuten de la red que las ldquoarantildeasrdquo de los buscadores no pueden o

no alcanzan a indizar Se las nombra como la Red Invisible o la Red profunda e

incluye entre otras cosas sitios protegidos por contrasentildeas documentos detraacutes de

ldquocortinas de fuegordquo material archivado herramientas interactivas y los contenidos

de ciertas bases de datos

Los servicios de consulta basados en directorios y motores de buacutesqueda han ido

incorporando prestaciones y han evolucionado hacia lo que actualmente se llaman

portales un conjunto de servicios que pretende satisfacer todas las necesidades de

los usuarios de Internet (cuentas de correo electroacutenico chat paacuteginas amarillas y

blancas informacioacuten metereoloacutegica y de la bolsa servicio de noticias)

1213 Los agentes inteligentes

Un agente es una entidad autoacutenoma capaz de almacenar conocimiento sobre siacute

misma y sobre su entorno con unos objetivos y capacidad Asimismo 8n agente

inteligente es un programa que basaacutendose en su propio conocimiento realiza un

conjunto de operaciones para satisfacer las necesidades de un usuario o de otro

programa bien por iniciativa propia o porque alguno de estos se lo requiere

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

13

Seguacuten las leyes de la inteligencia artificial debe de tener las siguientes

caracteriacutesticas

Autonomiacutea Debe actuar sin ninguacuten tipo de intervencioacuten humana directa

y tener control sobre sus propios actos

Sociabilidad Comunicatividad Debe de ser capaz de comunicarse

mediante un lenguaje comuacuten con otros agentes e incluso con los

humanos

Capacidad de reaccioacuten Percibe su entorno y reaccionar para adaptarse a

eacutel (por ejemplo ante una palabra mal escrita determinar queacute es a traveacutes

del contexto)

Iniciativa Emprende las acciones necesarias para resolver un problema

Tipologiacuteas de herramientas de segunda generacioacuten (agentes inteligentes)

Clientes z3950 Permiten la consulta simultaacutenea de un elevado nuacutemero de

servidores mediante un uacutenico protocolo es decir un uacutenico interfaz y

lenguaje de interrogacioacuten Es especialmente uacutetil en recuperar la informacioacuten

que se encuentra en la llamada ldquoInternet invisiblerdquo informacioacuten que no es

indizada por los motores de buacutesqueda ndash por ejemplo las bases de datos -

Volcadores Permiten volcar automaacuteticamente una copia ideacutentica de sedes

directorios y documentos manteniendo su estructura y sus elementos ndash

incluso los enlaces - y creando asiacute un archivo offline Se puede programar

la hora del volcado reduciendo considerablemente el tiempo y el coste y

permite activar el vuelco de diferentes tipos especiales de documentos (

html doc pdf gif )

Mutibuscadores o metabuscadores Permiten realizar la recuperacioacuten de la

informacioacuten en varios motores de buacutesqueda simultaacuteneamente A diferencia

de los multibuscadores de primera generacioacuten la mayoriacutea de las tareas

pueden automatizarse y son muy flexibles en su configuracioacuten traducen

expresiones en lenguaje natural enviacutean los perfiles a varios motores de

buacutesqueda y procesan los resultados eliminando los duplicados y ordenando

los contenidos seguacuten criterios y formatos definibles

Trazadores Permiten la buacutesqueda en las paacuteginas enlazadas desde una

paacutegina web determinada o desde una lista de resultados de un buscador

Desde esta primera sede llamada ldquosemillardquo y aprovechando la naturaleza

hipertextual de Internet van comprobaacutendose las paacuteginas que se encuentran

enlazadas seguacuten una serie de criterios de pertinencia y asiacute sucesivamente

hasta un nivel prefijado Aunque generan mucho ruido y es una teacutecnica

lenta permite recuperar informacioacuten que es imposible de localizar para los

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

14

buscadores

Indizadores Permiten indizar y resumir automaacuteticamente diferentes paacuteginas

web y exportar los resultados en diferentes formatos reutilizables por

editores web

Mapeadores Describen iacutentegramente una sede detallando cada fichero y

directorio y proporcionando un mapa de contenidos Permiten obtener

datos numeacutericos que ayudan a evaluar dichos contenidos y establecer una

comparativa entre diferentes sedes web ndash en base a valores como el

tamantildeo la densidad hipermedia de la sede su estructura de niveles la

tipologiacutea de enlaces etc

122 Funcionamiento de los motores de buacutesqueda

Un motor de buacutesqueda estaacute formado por cuatro elementos baacutesicos

1 Un programa (tambieacuten denominado robot rastreador o webcrawler) que recorre

el WWW buscando recursos de informacioacuten y sus respectivas URLs

2 Un sistema automaacutetico de anaacutelisis de contenidos e indexacioacuten de los

documentos localizados por el robot

3 Un sistema de interrogacioacuten generalmente basado en la loacutegica booleana que

permite al usuario expresar su necesidad de informacioacuten

4 Un programa que actuacutea de pasarela entre el servidor de documentos html y la

base de datos

Funcionamiento el motor de buacutesqueda recibe la consulta del usuario (query)

formada por uno o maacutes teacuterminos realiza una consulta interna en la base de datos

que contiene los recursos web indexados y ofrece una lista de aquellos recursos que

cumplen una parte o el total de los requisitos establecidos en la consulta

Generalmente los resultados aparecen ordenados seguacuten una puntuacioacuten (score)

que el programa asocia automaacuteticamente a cada recurso

Para realizar una consulta es necesario tener en cuenta un conjunto de variables

1 Lenguaje de interrogacioacuten que debe ofrecer diferentes tipos de operadores

loacutegicos de comparacioacuten de truncamiento de proximidad de especificacioacuten de

campo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

15

2 Posibilidad de refinar (refine) una buacutesqueda inicial

3 Campos limitadores que nos permitan reducir la buacutesqueda dominios lenguas

paiacuteses fecha de creacioacuten del recurso

4 Buacutesquedas alternativas buacutesqueda simple buacutesqueda avanzada buacutesquedas

combinando operadores e iacutendices temaacuteticos etc

5 Opciones avanzadas buscar diferentes recursos (texto sonido imagen)

guardar y reutilizar buacutesquedas diferentes formatos en los resultados de

buacutesqueda (estaacutendard detallado compacto etc) buacutesqueda de conceptos

relacionados (related topics) consulta directa en bases de datos (infranets)

etc

123 Los metabuscadores

La gran cantidad de informacioacuten y el notable aumento de motores de buacutesqueda

accesibles desemboca en la necesidad de realizar consultas simultaacuteneas en

diferentes motores de buacutesqueda y con una sola estrategia (query) De esta

necesidad surgen los denominados ldquometabuscadoresrdquo que ofrecen nuevas

prestaciones y mejores y maacutes exhaustivos resultados de buacutesqueda

Los metabuscadores permiten automatizar el proceso de realizar una misma

consulta en diversos motores de buacutesqueda lo cual no significa que sea totalmente

exhaustivo puesto que el metabuscador enviacutea la consulta solamente a aquellos

motores de buacutesqueda con los que ha establecido un acuerdo previo

En el funcionamiento de los metabuscadores cabe destacar algunas variables

interesantes Por una lado la exhaustividad no estaacute garantizada (desde el

momento en el que sabemos que un motor de buacutesqueda es capaz de indexar a lo

sumo un 30 de los recursos web disponibles) Por otro los tiempos de respuesta

pueden ser mucho maacutes largos dada la necesidad de realizar muacuteltiples buacutesquedas

simultaacuteneas (Metacrawler permite delimitar el tiempo maacuteximo de espera de 1 a 10

minutos) ademaacutes la recuperacioacuten de recursos duplicados suele ser muy elevada

por ello algunos metabuscadores ya han implementado la utilidad que permite

eliminar los duplicados

124 Tendencia actual de los motores de buacutesqueda

Partiendo de los problemas actuales que presentan los motores de buacutesqueda en

cuanto a su funcionamiento y los resultados ofrecidos se pueden adelantar algunas

viacuteas de solucioacuten futura que marcan la tendencia en la evolucioacuten de los motores de

buacutesqueda

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

16

Los resultados de la buacutesqueda pueden ser satisfactorios o no tanto Los motores de

buacutesqueda ofrecen resultados muy diferentes ante una misma cuestioacuten inicial este

hecho demuestra la poca exhaustividad de los motores en la indexacioacuten de los

recursos web y pone de manifiesto los problemas derivados de la escasez de control

linguumliacutestico

Actualmente se aboga por la incorporacioacuten de herramientas de anaacutelisis linguumliacutestico y

control terminoloacutegico en los motores de buacutesqueda de forma que sea posible

efectuar una recuperacioacuten menos ligada a la comparacioacuten de cadenas de caracteres

y maacutes vinculada a la comparacioacuten de conceptos

La escasa calidad de la informacioacuten recuperada es otro inconveniente de los

actuales motores de buacutesqueda Los mecanismos para aumentar la precisioacuten en la

buacutesqueda (refinamientos buacutesquedas avanzadas acotacioacuten por dominios etc) a

veces no funcionan como cabriacutea esperar A ello hay que antildeadir el miacutenimo valor de

algunos de los sitios web recuperados el porcentaje de recursos repetidos y el

porcentaje de recursos inactivos (que ya no existen fiacutesicamente en la red aunque

continuacutean indexados)

En este sentido se empieza a hablar de una Internet para el gran puacuteblico y una

Internet de los recursos culturales cientiacuteficos y teacutecnicos La especializacioacuten de los

motores de buacutesqueda es una buena viacutea para conseguir mejores servicios de

informacioacuten la especializacioacuten conduce a la concentracioacuten del conocimiento en

ciertos lugares donde los usuarios pueden encontrar faacutecilmente los recursos

relacionados con su aacutembito de conocimiento

13 La Infranet o Internet invisible

La infranet o Internet invisible es el conjunto de recursos accesibles uacutenicamente a

traveacutes de alguacuten tipo de pasarela o formulario web y que por tanto no pueden ser

indizados de forma estructural por los robots de los motores de buacutesqueda

Muchos de estos recursos son de gran calidad y desde el punto de vista del gestor

de informacioacuten tienen una importancia clave en la recuperacioacuten de informacioacuten de

alto valor antildeadido Su invisibilidad para los motores de buacutesqueda implica una

dificultad considerable para la recuperacioacuten efectiva de estos recursos y requiere

aproximaciones novedosas por parte de los profesionales

131 Los recursos de la Internet invisible

La propia heterogeneidad formal de la informacioacuten en Internet puede plantear

dificultades a la hora de entender queacute recursos estaacuten incluido bajo la denominacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

17

de Internet Invisible Con el fin de clarificar queacute contenidos pueden resultar

invisibles se ha considerado una clasificacioacuten que atiende a criterios documentales

Bases de datos bibliograacuteficas se incluyen en este grupo los cataacutelogos de

biblioteca accesibles a traveacutes de una pasarela (OPAC) web otras bases de datos de

referencias bibliograacuteficas (de acceso puacuteblico o restringido ndashregistro previo gratuito o

de pago-) y entidades similares tales como los cataacutelogos de libreriacuteas (ej

Amazoncom)

Bases de datos alfanumeacutericas definidas por exclusioacuten del grupo anterior son

todas las bases de datos que no tienen caraacutecter bibliograacutefico Comprenderiacutea

ademaacutes los recursos llamados de referencia que requiren alguacuten tipo de pasarela de

acceso para su consulta (ej Encyclopaedia Britannica)

Una situacioacuten ligeramente distinta es la planteada por las paacuteginas generadas

dinaacutemicamente (asp jsp php o similares) Dichas paacuteginas soacutelo existen en virtud de

una consulta puntual imposible de realizar por los robots de los motores de

buacutesqueda y cuyo contenido puede alcanzar un considerable grado de

personalizacioacuten Desde un punto de vista documental los contenidos que explotan

estaacuten en una base de datos y por tanto se consideran dentro de esta categoriacutea

Archivos y revistas electroacutenicas se trata de bases de datos que incluyen

documentos a texto completo y que soacutelo se pueden recuperar previa identificacioacuten

de la referencia labor para la que se requiere utilizar una pasarela web simple

(formulario de consulta) o doble (palabra de acceso y formulario de consulta)

Ficheros no HTML o textuales el (relativo) fracaso de HTML original a la hora de

generar paacuteginas con una maquetacioacuten muy rica ha permitido que algunos formatos

de disentildeo maacutes elaborado hayan adquirido popularidad en la web (pdf ps ppt doc)

Estos formatos no textuales no son indizados correctamente por los robots de los

motores de buacutesqueda (excepcioacuten Googlecom ya indiza documentos pdf y los

convierte en HTML) y por tanto constituyen una parte del webespacio invisible que

ha ido adquiriendo cada vez maacutes importancia

132 La recuperacioacuten de la informacioacuten en la Internet invisible

La recuperacioacuten de la informacioacuten en la Internet invisible se apoya

fundamentalmente en la disponibilidad de directorios e iacutendices que identifiquen y

organicen su principales recursos El maacutes importante en el mercado espantildeol es la

sede espantildeola de Internet Invisible httpwwwinternetinvisiblecom

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

18

Las herramientas maacutes importantes para la recuperacioacuten de estos recursos de

informacioacuten invisibles son

Clientes Z3950 La progresiva adopcioacuten del protocolo Z3950 por la mayoriacutea de

las bibliotecas estaacute incrementando el valor de los clientes Z3950 que ya pueden

acceder a una masa criacutetica de recursos

Bookwhere 2000 Sea Change (wwwbookwherecom)

EzCat BookSystems (wwwbooksyscomezcat)

ZNavigator EnWare (wwwenwarees)

ZSearch Infoworks Technology (wwwitcompanycom)

ZPista Ifgenia Plus (wwwifigeniaeszeta)

Agentes inteligentes estos programas se han convertido en herramientas muy

populares en Internet que permiten superar algunos de los problemas

tradicionalmente asociados a los motores de buacutesqueda No todos los agentes

ofrecen acceso a recursos de la Internet invisible e incluso aquellos que asiacute lo hacen

lo presentan como opciones avanzadas normalmente no disponibles en las

versiones ldquosharewarerdquo

BullsEye Intelliseek (wwwintelliseekcom)

Copernic Copernic (wwwcoperniccom)

EZSearch American Systems (wwwamericansyscom)

LexiBot BrightPlanet (wwwlexibotcom)

WebSeeker Blue Squirrel (wwwbluesquirrelcom)

14 Bibliografiacutea

Aguillo Cantildeo Isidro (1999) Del multibuscador al metabuscador las agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

19

trazadores de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten

y la organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada p239-245

Aguillo Cantildeo Isidro (2001) Internet invisible o Infranet definicioacuten clasificacioacuten y

evaluacioacuten En Maldonado Martiacutenez Angeles La informacioacuten especializada en

Internet Madrid CSIC p 161-178

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I Information

World en Espantildeol vol 6 nordm 5 p 22-26

Codina Lluis (2003) Internet invisible y web semaacutentica iquestel futuro de los sistemas

de informacioacuten en liacutenea Revista tradumaacutetica nordm 2 2003

Cornella Alfons (2001) Mensaje 364 de Extra-Net la revista de infonomiacutea La

infranet iquestdoacutende esta el valor

Fernaacutendez de las Heras Joseacute Manuel Diacuteaz de Cerio Pako (2000) La Intranet del

conocimiento IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del

Conocimiento retos y soluciones de los profesionales de la informacioacuten Bilbao 19-

20-21 octubre 2000 p 567-574

Goacutemez Diacuteaz Raquel (2003) La evaluacioacuten en recuperacioacuten de la informacioacutenraquo

Hipertextnet nordm 1 (mayo 2003) httpwwwhipertextnetwebpag238htm

Marcos Mora Mariacutea del Carmen (2005) Elementos visuales en sistemas de

buacutesqueda y recuperacioacuten de la informacioacuten Hipertextnet nordm 3 (mayo 2005)

httpwwwhipertextnetwebpag257htm

Martiacutenez Francisco J Rodriacuteguez Muntildeoz Joseacute Vicente (2004) Reflexiones sobre la

evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesidad utilidad y

viabilidad Anales de documentacioacuten nuacutem 7 (2004) p 153-170

httpwwwumesfccdanalesad07ad0710pdf

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada 1999)

La representacioacuten y la organizacioacuten del conocimiento en sus distintas perspectivas

su influencia en la recuperacioacuten de informacioacuten Granada Isko Universidad de

Granada p 247-248

Vaquero JR (1997) Motores de buacutesqueda Information World en Espantildeol vol 6

nordm 7-8 p 31-32

Vidal Bordeacutes Francisco Javier Salvador Olivaacuten Joseacute Antonio (2000) La

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

20

implementacioacuten de metadatos y Dublin Core en sedes y paacuteginas web de bibliotecas

y centros de documentacioacuten de universidades y centros de investigacioacuten de la Red

IRIS IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del Conocimiento

retos y soluciones de los profesionales de la informacioacuten Bilbao 19-20-21 octubre

2000 p 197-210

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

21

15 Casos praacutecticos

151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda

PRESENTACIOacuteN

La recuperacioacuten del conocimiento mediante la utilizacioacuten de motores de buacutesqueda

es muy heterogeacutenea Cada motor indexa y recupera de una forma diferente Por

tanto es importante tener unos paraacutemetros para poder evaluar queacute motores de

buacutesqueda son los maacutes adecuados ante una necesidad de informacioacuten

OBJETIVOS

Conocer el funcionamiento de los motores de buacutesqueda

Utilizar una metodologiacutea para la evaluacioacuten de motores de buacutesqueda

ENUNCIADO

El estudiante deberaacute evaluar 3 motores de buacutesqueda de aacutembito internacional para

ello usaraacute una estrategia de buacutesqueda que aplicaraacute en los 3 motores

preseleccionados de forma que puedan apreciarse claramente las diferencias entre

eacutestos

Motores de buacutesqueda Googlecom Yahoocom Altavistacom

Estrategia de buacutesqueda digital libraries

Las caracteriacutesticas que pueden presentar los diferentes motores de buacutesqueda se

van a agrupar en tres apartados recogida de la informacioacuten buacutesqueda y

recuperacioacuten de la informacioacuten y presentacioacuten de los resultados

Recogida de informacioacuten En este apartado hay que determinar si el robot

es capaz de identificar las etiquetas ldquoMETArdquo de los documentos HTML y

extraer informacioacuten de las mismas para ser usada en la buacutesqueda o

presentacioacuten de resultados

Buacutesqueda Las caracteriacutesticas baacutesicas que un motor de buacutesqueda debe

cumplir desde el punto de vista de la recuperacioacuten de la informacioacuten son las

siguientes

o Formularios de buacutesqueda posibilidad de elegir entre simple o

avanzado

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

22

o Herramientas de buacutesqueda posibilidad de utilizar operadores

booleanos (AND OR NOT) pareacutentesis comillas para los teacuterminos

compuestos o frases y finalmente posibilidad de truncado en

palabras derivadas

o Clasificacioacuten temaacutetica existencia de un iacutendice general para aquellos

que no saben concretar su tema de buacutesqueda

o Campos de buacutesqueda posibilidad de limitar la buacutesqueda a campos

determinados tales como Tiacutetulo URL Descripcioacuten Palabras Clave

Localizacioacuten e Idioma

o Control del vocabulario descubrir si el motor dispone de alguna

herramienta para eliminar sinonimias y polisemias etc

o Deteccioacuten de novedades posibilidad de diferenciar los nuevos

recursos incorporados

Resultados Hay que tener en cuenta si el motor de buacutesqueda permite

elegir entre diferentes formatos de presentacioacuten de los resultados asiacute como

diversos criterios de ordenacioacuten

FORMATO

El establecido en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

23

CUADRO PARA LA EVALUACIOacuteN DE MOTORES DE BUacuteSQUEDA

Recogida de

informacioacuten

Buacutesqueda y Recuperacioacuten de Informacioacuten

Resultados

Formularios

Herramientas de buacutesqueda

Clasif

Campos de buacutesqueda

Format

Orden

MOTORES

Metadata No

Metadata

Simple Avanz

OR

AND

NOT

( )

ldquo ldquo

Tiacutet

URL

Desc

Keyw

Loc

Leng

Control

Vocab

Nov

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

24

152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda

PRESENTACIOacuteN

Una organizacioacuten ha destinado una partida presupuestaria para aumentar la

presencia web del ayuntamiento e implementar servicios y productos de

informacioacuten interactivos para los ciudadanos

Los departamentos de Informaacutetica Documentacioacuten y Comunicacioacuten estaacuten

colaborando en el proceso de compra de nuevo software que permita implementar

estas prestaciones y sea compatible con el back-office de la organizacioacuten

En la proacutexima reunioacuten se va a decidir queacute software para la implementacioacuten de un

motor de buacutesqueda en la Intranet y sitio web del ayuntamiento se va a adquirir

OBJETIVOS

Conocer las caracteriacutesticas de los principales software del mercado para la

implentacioacuten de tecnologiacutea pull para la recuperacioacuten de la informacioacuten

Presentar una aplicacioacuten praacutectica de la gestioacuten del conocimiento

(recuperacioacuten) en un entorno web

Evaluar un paquete de software con relacioacuten a unos criterios teacutecnicos y

metodoloacutegicos preestablecidos

ENUNCIADO

El estudiante es la persona que representa al Departamento de Documentacioacuten en

esta reunioacuten y debes presentar tu propuesta del paquetes de software que maacutes se

adapta a los requerimientos de la organizacioacuten

Los requerimientos establecidos en la reunioacuten anterior son

Software compatible con el Sistema de Informacioacuten del ayuntamiento

Oracle portal sobre UNIX Bases de datos Access y SQL Server JSP y

Dreamweaver Ultradev

Software compatible con cualquier plataforma web Intranet sitio web CD-

ROM DVD

Indexacioacuten de materiales diversos HTML XML asp php pdf doc etc

Entorno usable y familiar para el usuario interno y externo

Opciones de buacutesqueda avanzada operadores booleanos truncamiento

limitaciones de campo y otros

Indexacioacuten de paacuteginas HTML y de texto en varios idiomas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

25

FORMATO

El formato debe centildeirse a los siguientes apartados

1 Metodologiacutea de la evaluacioacuten [el estudiante debe enunciar las fuentes

consultadas y el conjunto de los paquetes de software analizados]

2 Evaluacioacuten del software [el estudiante debe recopilar la siguiente informacioacuten

del paquetes de software seleccionados]

Nombre del SW

Precio

Requerimientos que cumple

Compatibilidad con el sistema de informacioacuten

Compatibilidad con diferentes plataformas web

Indexacioacuten de materiales diversos

Usabilidad del entorno

Opciones de buacutesqueda

Idiomas

3 Propuesta del Departamento de Documentacioacuten[el estudiante debe comentar

algunos puntos a favor yo en contra del software propuesto como opcioacuten 1]

RECURSOS

Sullivan Danny Search Engine Software for your web site

SearchEngineWatchcom Sept 16 2002 (Consultado el 23-05-2006)

httpsearchenginewatchcomresourcessoftwarehtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

26

16 Anexo Introduccioacuten a Google

Presentacioacuten

Internet es una extensa red de documentos de muacuteltiples formatos desde paacuteginas

web en html a documentos de distintos tipos como puedan ser textos imaacutegenes

archivos de sonido o de viacutedeo etc Cuando necesitas buscar cierta informacioacuten en

Internet lo maacutes eficaz es utilizar un buscador ya que estas herramientas disponen

de robots que rastrean la web en busca de informacioacuten e indexan los documentos

seguacuten sus formatos y contenidos de tal forma que muestran a sus usuarios los

documentos relevantes con los criterios de buacutesqueda elegidos

Conocer adecuadamente las propiedades y herramientas de cada buscador nos

puede ayudar a restringir las buacutesquedas a lo que realmente es relevante para

nosotros sin embargo generalmente estos criterios son desconocidos por el

internauta medio ya que se basan en criterios documentales

Google es el buscador maacutes famoso y utilizado realizar una buacutesqueda bien acotada

es necesario incluir el maacuteximo de palabras relevantes para el usuario prestando

especial atencioacuten a los diferentes significados de una palabra Google determina los

resultados por las coincidencias y cercaniacutea de las palabras entre siacute Google tampoco

distingue entre mayuacutesculas y minuacutesculas ni acentos Entrecomillar frases obliga al

buscador a encontrar paacuteginas que tengan esa frase completa

Buacutesqueda sencilla

httpwwwgoogleesintleshelpbasicshtml

iquestQueacute operador booleano utilizan por defecto las buacutesquedas sencillas Pon un

ejemplo

iquestGoogle permite la utilizacioacuten de comodines () para limitar la buacutesqueda Pon un

ejemplo

iquestGoogle diferencia los acentos y las mayuacutesculas y minuacutesculas Pon un ejemplo

Restricciones en la buacutesqueda

httpwwwgoogleesintleshelprefinesearchhtml

iquestCoacutemo se excluye una palabra de una estrategia de buacutesqueda Por ejemplo de la

buacutesqueda [biblioteca arte moderno] queacute debo hacer para excluir la palabra

moderno

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

iquestQueacute debo hacer para buscar una frase por ejemplo [gran hermano]

iquestCoacutemo puedo buscar noticias sobre la guerra de Irak soacutelo en el sitio web del

Elmundoes Especifica la estrategia de buacutesqueda

Buacutesqueda avanzada

httpwwwgoogleesadvanced_searchhl=es

Los buscadores de internet han superado ampliamente las claacutesicas posibilidades de

filtrado de preguntas basadas en el aacutelgebra booleana (operadores Y NO O en

ingleacutes AND OR y NOT) Por ejemplo google descarta por defecto el operador

booleano OR (historia O roma) asumiendo que su base de datos es tan grande

que o intenta ser muy especiacutefico o el resultado obtenido en una consulta de este

tipo tendraacute demasiado ruido esto saldraacuten demasiadas respuestas Aun asiacute nos

permite utilizarlo a voluntad en su buacutesqueda avanzada

Asiacute google busca por defecto con el operador AND (historia Y roma) y es maacutes

aplica por defecto un operador NEAR decreciente NEAR busca paacuteginas en las que

aparezca historia y tambieacuten roma con una o maacutes palabras de separacioacuten entre

ambos conceptos El nuacutemero de palabras se regula por 123 etc copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

27

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 2: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

2

Primera edicioacuten julio 2004

Segunda edicioacuten revisada y ampliada julio 2006

copy Planeta- UOC SL

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero

Av Tibidabo 39-43 08035 Barcelona

ISBN 84-9707-571-4

Ninguna parte de esta publicacioacuten incluido el disentildeo general y la cubierta

puede ser copiada reproducida almacenada o transmitida de ninguna

forma ni por ninguacuten medio sea eacuteste eleacutectrico quiacutemico mecaacutenico oacuteptico

grabacioacuten fotocopia o cualquier otro sin la previa autorizacioacuten escrita de

los titulares del copyright

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

3

Indice de contenidos

Introduccioacuten 5

1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten 6

11 El lenguaje de interrogacioacuten 6

111 Operadores loacutegicos o booleanos 6

112 Operadores posicionales 8

1121 Operadores posicionales relativos 8

1122 Operadores posicionales absolutos 9

113 Operadores de truncamiento y de liacutemitecomparacioacuten 9

12 Las herramientas de recuperacioacuten de informacioacuten web 10

121 Tipos de herramientas de buacutesqueda y recuperacioacuten 11

1211 Los directorios o iacutendices temaacuteticos 11

1212 Los motores de buacutesqueda 12

1213 Los agentes inteligentes 12

122 Funcionamiento de los motores de buacutesqueda 14

123 Los metabuscadores 15

124 Tendencia actual de los motores de buacutesqueda 15

13 La Infranet o Internet invisible 16

131 Los recursos de la Internet invisible 16

132 La recuperacioacuten de la informacioacuten en la Internet invisible 17

14 Bibliografiacutea 18

15 Casos praacutecticos 21

151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda 21

152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda 24

16 Anexo Introduccioacuten a Google 26

2 El posicionamiento en los motores de buacutesqueda 31

21 Concepto de posicionamiento web 31

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

4

22 Criterios baacutesicos para el posicionamiento 31

221 Criterios de optimizacioacuten internos a la paacutegina web 32

222 Criterios de optimizacioacuten externos a la paacutegina web 34

23 Los metadatos y el posicionamiento web 35

231 Concepto de metadatos 35

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten 37

2321 La iniciativa Dublin Core 38

2322 Los elementos Dublin Core 38

24 La optimizacioacuten de las palabras clave 39

25 La planificacioacuten de un proyecto de posicionamiento 41

251 Plan de posicionamiento 41

252 Alta en los principales buscadores 41

253 Enlaces patrocinados 42

254 Servicios de consultoriacutea 43

26 Bibliografiacutea 44

27 Caso praacutectico Plan de posicionamiento web 45

3 Los agentes inteligentes de informacioacuten 50

31 Concepto de agente inteligente 50

32 Caracteriacutesticas de los agentes 51

33 Aplicaciones de los agentes 51

34 Clasificacioacuten de los agentes inteligentes 53

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten 54

36 Bibliografiacutea 55

37 Caso praacutectico Comparacioacuten Google versus Copernic 58

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

5

Introduccioacuten

Los mayores motores de buacutesqueda apenas cubren un 20-25 del web mientras

que los principales iacutendices es dudoso que lleguen a un 5 La desventaja de este

ingente volumen de informacioacuten es que por razones de celeridad en la respuesta

obliga a limitar las prestaciones de buacutesqueda de forma que suelen faltar ciertas

capacidades avanzadas Otros problemas importantes derivan de la diferente

cobertura de la red (las sedes comerciales y de los paiacuteses desarrollados estaacuten mejor

indizadas) el elevado porcentaje de enlaces no activos y la desactualizacioacuten de los

recursos debido a frecuencia de revisioacuten muy baja o inadecuada

Las herramientas de motor de buacutesqueda estaacuten instaladas en el ordenador remoto y

por tanto limitadas por restricciones generalmente ajenas al usuario final Una

nueva generacioacuten de herramientas y la adopcioacuten de nuevas estrategias pueden

ayudar significativamente asiacute como el reconocimiento de nuevas realidades y el

descubrimiento de fuentes ocultas de datos relevantes hasta la fecha

frecuentemente infrautilizados

Las herramientas de segunda generacioacuten instaladas en el ordenador cliente son

capaces de tratar con grandes voluacutemenes de informacioacuten automatizando tareas

que incrementan la productividad final de los recursos recuperados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

6

1 Los motores de buacutesqueda y la recuperacioacuten de la

informacioacuten

La recuperacioacuten de la informacioacuten (RI) es una operacioacuten en la que se interpreta una

necesidad de informacioacuten de un usuario y se seleccionan los documentos maacutes

relevantes capaces de solucionarla En el contexto de Internet se puede definir el

objetivo de la recuperacioacuten como la identificacioacuten de una o maacutes referencias de

paacuteginas web que resulten relevantes para satisfacer una necesidad de informacioacuten

11 El lenguaje de interrogacioacuten

Un lenguaje de interrogacioacuten es el conjunto de opciones (oacuterdenes operadores y

estructuras) que organizados seguacuten normas loacutegicas permiten la consulta de los

recursos de informacioacuten mediante una expresioacuten llamada ecuacioacuten de buacutesqueda

Las oacuterdenes son aquellas palabras o abreviaturas que indican al sistema las

acciones a ejecutar (buscara la expresioacuten mostrar los registros resultantes

de una buacutesqueda ejecutar un perfil de usuario)

Los operadores son los encargados de expresar las relaciones que

mantienen entre siacute los teacuterminos que pueden definir las necesidades

informativas del usuario

Si bien inicialmente las ecuaciones de buacutesqueda se formulaban mediante la

formulacioacuten textual de expresiones la implantacioacuten de interfaces graacuteficas a partir

de los antildeos 80 llevoacute al uso de nuevos entornos de seleccioacuten donde el usuario soacutelo

debe introducir los teacuterminos y guiarse por un sistema de botones y menuacutes

desplegables

111 Operadores loacutegicos o booleanos

Llamados asiacute en honor a George Boole matemaacutetico del siglo XIX que fue el

precursor de la loacutegica simboacutelica y el aacutelgebra de Boole (teoriacutea de conjuntos) es uno

de los meacutetodos maacutes extendidos de especificar las buacutesquedas en la mayoriacutea de

sistemas Se basan en tres operaciones loacutegicas baacutesicas

Interseccioacuten de conjuntos AND Y Operador que indica que deben estar

incluidos en los resultados de la buacutesqueda los teacuterminos unidos por esta

partiacutecula Es un operador restrictivo puesto que elimina aquellos

documentos en los que no aparecen todos los teacuterminos de la expresioacuten de

buacutesqueda

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Ejemplo bullseye AND copernic indica que deben aparecer en el documento

las dos palabras si no es asiacute se excluiraacute el documento

Unioacuten o suma de conjuntos OR O Indica que cualquiera de las palabras

que esteacuten unidos por este operador debe aparecer en el documento las

restantes no tienen que estar presentes Es un operador de ampliacioacuten pues

soacutelo deberaacute aparecer uno o alguno de los teacuterminos de la expresioacuten de

buacutesqueda

Ejemplo bullseye OR copernic puede aparecer en el documento la palabra

bullseye o copernic o ambas

Exclusioacuten de conjuntos NO AND NOT Operador que excluye de un

documento la palabra no deseada Es un operador de restriccioacuten pues se

seleccionan aquellos documentos que contienen el primer teacutermino de

buacutesqueda pero no el segundo

Ejemplo Knowbots AND NOT copernic recupera todos los documentos que

contengan la palabra Knowbots pero que no contengan la palabra copernic

En la elaboracioacuten de una ecuacioacuten de buacutesqueda es habitual la combinacioacuten de maacutes

de uno de estos operadores por lo que seraacute necesario conocer en profundidad el

sistema para saber las prioridades a la hora de su ejecucioacuten puesto que los copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

7

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

8

resultados pueden variar sustancialmente A menudo estas prioridades vienen

marcadas por el uso de pareacutentesis de manera que se ejecuta en primer lugar el

operador que une los teacuterminos que estaacuten entre pareacutentesis

Ejemplo (bullseye OR copernic OR lexibot) AND (agentes inteligentes)

recupera los documentos que contengan los terminos agentes inteligentes y

copernic o bullseye o lexibot

112 Operadores posicionales

Los operadores posicionales toman como partida la posicioacuten del teacutermino en

relacioacuten a su contexto es decir en relacioacuten a los otros teacuterminos y al documento

Estos operadores se pueden dividir en dos tipos los relativos y los absolutos

1121 Operadores posicionales relativos

A menudo llamados operadores de adyacencia o proximidad Permiten definir al

sistema de buacutesqueda la distancia que puede existir entre un teacutermino y otro Se

pueden buscar teacuterminos que esteacuten juntas separadas por varias palabras o

caracteres que se encuentren en una misma frase o un mismo paacuterrafo e incluso

si se debe o no respetar el orden de los teacuterminos Existe una gran variedad de

operadores de adyacencia y expresan diferentes situaciones seguacuten los sistemas

NEAR operador que obliga a estar a un nuacutemero determinado de distancia

las palabras claves a recuperar Este nuacutemero variacutea en funcioacuten de los

diferentes programas de recuperacioacuten de la informacioacuten asiacute por ejemplo

mientras en Altavista significa un maacuteximo de 10 palabras entre los

teacuterminos en WebCrawler significa un maacuteximo de 2 palabras

Ejemplo bullseye NEAR copernic recupera textos con frases como

ldquobullseye es mejor que copernicrdquo o ldquocopernic tiene maacutes motores que

bullseyerdquo

NEARN realiza la misma operacioacuten que NEAR pero N es sustituido por la

distancia en palabras que deben estar separados los teacuterminos de

buacutesqueda

Ejemplo bullseye NEAR5 copernic recupera todos los documentos que

aparezcan los dos terminos y cuya separacioacuten no sea mayor a cinco

palabras

Otra posibilidad es hacer una buacutesqueda de una frase exacta Consiste en la

interseccioacuten de las palabras de buacutesqueda que ademaacutes estaacuten adyacentes y en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

9

el orden en que se describen

ldquo rdquo emplear las comillas expresa que debe aparecer la frase exacta y en el

mismo orden

Ejemplo ldquocomparacioacuten de agentes inteligentesrdquo tiene que aparecer esta frase

en los documentos para que sean recuperados

1122 Operadores posicionales absolutos

Se trata de operadores que permiten buscar el o los teacuterminos en un lugar

determinado del documento En general son operadores delimitadores de un

campo

Link recupera todos los links que contenga el teacutermino buscado

Ejemplo Linkldquoagentes inteligentesrdquo recupera todos los links que contenga la

frase exacta agentes inteligentes

Title recupera en los tiacutetulos de web correos etc la palabras deseadas

Ejemplo Titleldquoagentes inteligentesrdquo recupera uacutenicamente del tiacutetulo la frase

exacta

Url busca url que contengan los teacuterminos de la ecuacioacuten de buacutesqueda

Ejemplo Urlldquougresrdquo presenta todos las paacuteginas web de la Universidad de

Granada

Body recupera del cuerpo del documento el conjunto de palabras deseadas

Ejemplo Bodyldquoagentes inteligentesrdquo recupera del cuerpo del documento

uacutenicamente la frase exacta de la ecuacioacuten de buacutesqueda

113 Operadores de truncamiento y de liacutemitecomparacioacuten

Operadores de comparacioacuten o de rango Limitan la buacutesqueda mediante una

expresioacuten que establece un rango de valores especialmente numeacutericos

Corresponden a formas tipo ldquoigual querdquo(simbolizado por = EQ) ldquomayor

querdquo (simbolizado por gt GT) ldquomenor querdquo( simbolizado por lt LT) o

operadores de inteacutervalos (simbolizado por un guioacuten to gtlt)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

10

Operadores de truncamiento o maacutescaras Los truncamientos ayudan a

buscar todas las posibilidades semaacutenticas de un teacutermino por ejemplo sus

derivados fijados por prefjiacioacuten o sufijacioacuten las variantes leacutexicas Asiacute los

llamados caracteres comodiacuten como el asterisco () o la interrogacioacuten ()

sustituyen un caraacutecter o un conjunto de caracteres

Ejemplo document recupera todas las palabras que contengan esta raiz

por ejemplo documento documentos documentalista documentado etc

12 Las herramientas de recuperacioacuten de informacioacuten web

En Espantildea existen diferentes imprecisiones terminoloacutegicas a este respecto Por un

lado a los motores de buacutesqueda se les ha denominado con otros teacuterminos

sinoacutenimos tales como buscadores rastreadores webcrawlers agentes iacutendices

directorios Por otro durante cierto tiempo se han confundido tres tecnologiacuteas que

ahora tienen autonomiacutea propia los iacutendices temaacuteticosdirectorios los motores de

buacutesqueda y los agentes inteligentes

En principio la diferencia entre motor de buacutesqueda e iacutendice temaacutetico o directorio

parece clara Un iacutendice temaacutetico es una paacutegina web (sitio web) en donde las

distintas materias se encuentran organizadas en torno a un conjunto de epiacutegrafes

Esta diferencia se tambalea cuando nos encontramos con iacutendices temaacuteticos como

Yahoo (wwwyahoocom) que presenta un interfaz similar a los motores e incluso

permite realizar buacutesquedas sobre los recursos que tiene sistematizados En general

la diferencia radica en el hecho de que los iacutendices temaacuteticos contienen direcciones

que son recopiladas organizadas y clasificadas manualmente y la buacutesqueda se lleva

a cabo exclusivamente sobre los recursos indexados del directorio

Los agentes inteligentes pueden realizar una serie de tareas sin que los humanos u

otros agentes les tengan que decir queacute hacer a cada paso que dan en su camino

Se diferencian de los motores de buacutesqueda en que eacutestos albergan contenidos

estaacuteticos (aunque se actualizan con cierta frecuencia) y responden directamente a

las peticiones de los usuarios Si un motor de buacutesqueda pudiera almacenar

peticiones de los usuarios y notificarles la llegada de informacioacuten uacutetil entonces el

motor de buacutesqueda seriacutea un agente Sin embargo la diferenciacioacuten no es

radicalmente clara puesto que se denominan agentes inteligentes a softwares que

realmente no lo son

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

11

121 Tipos de herramientas de buacutesqueda y recuperacioacuten

A continuacioacuten se presenta una definicioacuten estaacutendar de cada una de las herramientas

de buacutesqueda y recuperacioacuten de informacioacuten mencionadas anteriormente

1211 Los directorios o iacutendices temaacuteticos

Los directorios o iacutendices presentan una seleccioacuten de recursos webs organizados

siguiendo una estructura o clasificacioacuten jeraacuterquica de materias que va de categoriacuteas

maacutes amplias a categoriacuteas maacutes especiacuteficas Los directorios se exploran mediante la

navegacioacuten (browsing) de una base de datos de documentos web compilados

recogidos y organizados manualmente por expertos (ayudados por robots de

localizacioacuten automaacutetica de recursos en la red) La buacutesqueda jeraacuterquica sirve al

usuario de guiacutea permitiendo acceder a la informacioacuten en el contexto temaacutetico al

que pertenece y en relacioacuten a otras aacutereas temaacuteticas

Los directorios tambieacuten presentan un motor de buacutesqueda interno para localizar

directamente recursos de la base de datos mediante diferentes ecuaciones de

buacutesqueda y palabras clave obviando de esta manera el uso del directorio temaacutetico

Los sistemas de buacutesqueda por palabras pueden actuar de dos maneras

Sobre la clasificacioacuten en una seccioacuten de ella (cuando por ejemplo

sabemos en queacute parte del directorio podemos localizar la informacioacuten

que nos interesa)

Sobre las paacuteginas pero en este caso se limitan a la informacioacuten

recopilada por el iacutendice (fundamentalmente sitios web no paacuteginas)

Asiacute pues la buacutesqueda de informacioacuten en los directorios puede hacerse bien de

forma guiada mediante clasificaciones jeraacuterquicas bien a partir de teacuterminos

especiacuteficos

Los directorios maacutes comunes son aquellos que ofrecen una navegacioacuten por temas

y con una cobertura generalista como por ejemplo Yahoo (Yet Another

Hierarchical Officious Oracle) Sin embargo tambieacuten existen directorios que

permiten por ejemplo una navegacioacuten geograacutefica (Virtual Tourist

httpwwwvirtualtouristcom ) o directorios especializados

Los servicios de consulta basados en directorios han ido incorporando prestaciones

y han evolucionado hacia lo que actualmente se llaman portales un conjunto de

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

12

servicios que pretende satisfacer todas las necesidades de los usuarios de Internet

(cuentas de correo electroacutenico chat paacuteginas amarillas y blancas informacioacuten

metereoloacutegica y de la bolsa servicio de noticias)

1212 Los motores de buacutesqueda

Los motores de buacutesqueda o buscadores tienen sus antecedentes en los simples

listados de direcciones de recursos y documentos de la red y son la respuesta al

raacutepido volumen de crecimiento dela red que supera la capacidad de los recursos

humanos de los directorios ndash que por ello suelen ser selectivos - Los buscadores

son bases de datos creadas por indizacioacuten automaacutetica del texto completo de las

paacuteginas web y realizada por un programa llamado robot Este robot loacutegico o

arantildea (spider) explora de forma automaacutetica los servidores extrayendo las palabras

maacutes significativas de cada paacutegina y creando un iacutendice de buacutesqueda Aun cuando

los programas lleguen a ser similares no existen dos programas de buacutesqueda

exactamente similares en teacuterminos de tamantildeo velocidad y contenido no existen

dos motores de buacutesqueda que utilicen coincidentemente el mismo listado de

relevancia y tampoco cada motor de buacutesqueda ofrece las mismas opciones de

buacutesqueda Por lo tanto su buacutesqueda resultaraacute diferente en cada motor utilizado La

diferencia podriacutea no ser mucha pero siacute significativa

Existe una gran porcioacuten de la red que las ldquoarantildeasrdquo de los buscadores no pueden o

no alcanzan a indizar Se las nombra como la Red Invisible o la Red profunda e

incluye entre otras cosas sitios protegidos por contrasentildeas documentos detraacutes de

ldquocortinas de fuegordquo material archivado herramientas interactivas y los contenidos

de ciertas bases de datos

Los servicios de consulta basados en directorios y motores de buacutesqueda han ido

incorporando prestaciones y han evolucionado hacia lo que actualmente se llaman

portales un conjunto de servicios que pretende satisfacer todas las necesidades de

los usuarios de Internet (cuentas de correo electroacutenico chat paacuteginas amarillas y

blancas informacioacuten metereoloacutegica y de la bolsa servicio de noticias)

1213 Los agentes inteligentes

Un agente es una entidad autoacutenoma capaz de almacenar conocimiento sobre siacute

misma y sobre su entorno con unos objetivos y capacidad Asimismo 8n agente

inteligente es un programa que basaacutendose en su propio conocimiento realiza un

conjunto de operaciones para satisfacer las necesidades de un usuario o de otro

programa bien por iniciativa propia o porque alguno de estos se lo requiere

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

13

Seguacuten las leyes de la inteligencia artificial debe de tener las siguientes

caracteriacutesticas

Autonomiacutea Debe actuar sin ninguacuten tipo de intervencioacuten humana directa

y tener control sobre sus propios actos

Sociabilidad Comunicatividad Debe de ser capaz de comunicarse

mediante un lenguaje comuacuten con otros agentes e incluso con los

humanos

Capacidad de reaccioacuten Percibe su entorno y reaccionar para adaptarse a

eacutel (por ejemplo ante una palabra mal escrita determinar queacute es a traveacutes

del contexto)

Iniciativa Emprende las acciones necesarias para resolver un problema

Tipologiacuteas de herramientas de segunda generacioacuten (agentes inteligentes)

Clientes z3950 Permiten la consulta simultaacutenea de un elevado nuacutemero de

servidores mediante un uacutenico protocolo es decir un uacutenico interfaz y

lenguaje de interrogacioacuten Es especialmente uacutetil en recuperar la informacioacuten

que se encuentra en la llamada ldquoInternet invisiblerdquo informacioacuten que no es

indizada por los motores de buacutesqueda ndash por ejemplo las bases de datos -

Volcadores Permiten volcar automaacuteticamente una copia ideacutentica de sedes

directorios y documentos manteniendo su estructura y sus elementos ndash

incluso los enlaces - y creando asiacute un archivo offline Se puede programar

la hora del volcado reduciendo considerablemente el tiempo y el coste y

permite activar el vuelco de diferentes tipos especiales de documentos (

html doc pdf gif )

Mutibuscadores o metabuscadores Permiten realizar la recuperacioacuten de la

informacioacuten en varios motores de buacutesqueda simultaacuteneamente A diferencia

de los multibuscadores de primera generacioacuten la mayoriacutea de las tareas

pueden automatizarse y son muy flexibles en su configuracioacuten traducen

expresiones en lenguaje natural enviacutean los perfiles a varios motores de

buacutesqueda y procesan los resultados eliminando los duplicados y ordenando

los contenidos seguacuten criterios y formatos definibles

Trazadores Permiten la buacutesqueda en las paacuteginas enlazadas desde una

paacutegina web determinada o desde una lista de resultados de un buscador

Desde esta primera sede llamada ldquosemillardquo y aprovechando la naturaleza

hipertextual de Internet van comprobaacutendose las paacuteginas que se encuentran

enlazadas seguacuten una serie de criterios de pertinencia y asiacute sucesivamente

hasta un nivel prefijado Aunque generan mucho ruido y es una teacutecnica

lenta permite recuperar informacioacuten que es imposible de localizar para los

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

14

buscadores

Indizadores Permiten indizar y resumir automaacuteticamente diferentes paacuteginas

web y exportar los resultados en diferentes formatos reutilizables por

editores web

Mapeadores Describen iacutentegramente una sede detallando cada fichero y

directorio y proporcionando un mapa de contenidos Permiten obtener

datos numeacutericos que ayudan a evaluar dichos contenidos y establecer una

comparativa entre diferentes sedes web ndash en base a valores como el

tamantildeo la densidad hipermedia de la sede su estructura de niveles la

tipologiacutea de enlaces etc

122 Funcionamiento de los motores de buacutesqueda

Un motor de buacutesqueda estaacute formado por cuatro elementos baacutesicos

1 Un programa (tambieacuten denominado robot rastreador o webcrawler) que recorre

el WWW buscando recursos de informacioacuten y sus respectivas URLs

2 Un sistema automaacutetico de anaacutelisis de contenidos e indexacioacuten de los

documentos localizados por el robot

3 Un sistema de interrogacioacuten generalmente basado en la loacutegica booleana que

permite al usuario expresar su necesidad de informacioacuten

4 Un programa que actuacutea de pasarela entre el servidor de documentos html y la

base de datos

Funcionamiento el motor de buacutesqueda recibe la consulta del usuario (query)

formada por uno o maacutes teacuterminos realiza una consulta interna en la base de datos

que contiene los recursos web indexados y ofrece una lista de aquellos recursos que

cumplen una parte o el total de los requisitos establecidos en la consulta

Generalmente los resultados aparecen ordenados seguacuten una puntuacioacuten (score)

que el programa asocia automaacuteticamente a cada recurso

Para realizar una consulta es necesario tener en cuenta un conjunto de variables

1 Lenguaje de interrogacioacuten que debe ofrecer diferentes tipos de operadores

loacutegicos de comparacioacuten de truncamiento de proximidad de especificacioacuten de

campo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

15

2 Posibilidad de refinar (refine) una buacutesqueda inicial

3 Campos limitadores que nos permitan reducir la buacutesqueda dominios lenguas

paiacuteses fecha de creacioacuten del recurso

4 Buacutesquedas alternativas buacutesqueda simple buacutesqueda avanzada buacutesquedas

combinando operadores e iacutendices temaacuteticos etc

5 Opciones avanzadas buscar diferentes recursos (texto sonido imagen)

guardar y reutilizar buacutesquedas diferentes formatos en los resultados de

buacutesqueda (estaacutendard detallado compacto etc) buacutesqueda de conceptos

relacionados (related topics) consulta directa en bases de datos (infranets)

etc

123 Los metabuscadores

La gran cantidad de informacioacuten y el notable aumento de motores de buacutesqueda

accesibles desemboca en la necesidad de realizar consultas simultaacuteneas en

diferentes motores de buacutesqueda y con una sola estrategia (query) De esta

necesidad surgen los denominados ldquometabuscadoresrdquo que ofrecen nuevas

prestaciones y mejores y maacutes exhaustivos resultados de buacutesqueda

Los metabuscadores permiten automatizar el proceso de realizar una misma

consulta en diversos motores de buacutesqueda lo cual no significa que sea totalmente

exhaustivo puesto que el metabuscador enviacutea la consulta solamente a aquellos

motores de buacutesqueda con los que ha establecido un acuerdo previo

En el funcionamiento de los metabuscadores cabe destacar algunas variables

interesantes Por una lado la exhaustividad no estaacute garantizada (desde el

momento en el que sabemos que un motor de buacutesqueda es capaz de indexar a lo

sumo un 30 de los recursos web disponibles) Por otro los tiempos de respuesta

pueden ser mucho maacutes largos dada la necesidad de realizar muacuteltiples buacutesquedas

simultaacuteneas (Metacrawler permite delimitar el tiempo maacuteximo de espera de 1 a 10

minutos) ademaacutes la recuperacioacuten de recursos duplicados suele ser muy elevada

por ello algunos metabuscadores ya han implementado la utilidad que permite

eliminar los duplicados

124 Tendencia actual de los motores de buacutesqueda

Partiendo de los problemas actuales que presentan los motores de buacutesqueda en

cuanto a su funcionamiento y los resultados ofrecidos se pueden adelantar algunas

viacuteas de solucioacuten futura que marcan la tendencia en la evolucioacuten de los motores de

buacutesqueda

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

16

Los resultados de la buacutesqueda pueden ser satisfactorios o no tanto Los motores de

buacutesqueda ofrecen resultados muy diferentes ante una misma cuestioacuten inicial este

hecho demuestra la poca exhaustividad de los motores en la indexacioacuten de los

recursos web y pone de manifiesto los problemas derivados de la escasez de control

linguumliacutestico

Actualmente se aboga por la incorporacioacuten de herramientas de anaacutelisis linguumliacutestico y

control terminoloacutegico en los motores de buacutesqueda de forma que sea posible

efectuar una recuperacioacuten menos ligada a la comparacioacuten de cadenas de caracteres

y maacutes vinculada a la comparacioacuten de conceptos

La escasa calidad de la informacioacuten recuperada es otro inconveniente de los

actuales motores de buacutesqueda Los mecanismos para aumentar la precisioacuten en la

buacutesqueda (refinamientos buacutesquedas avanzadas acotacioacuten por dominios etc) a

veces no funcionan como cabriacutea esperar A ello hay que antildeadir el miacutenimo valor de

algunos de los sitios web recuperados el porcentaje de recursos repetidos y el

porcentaje de recursos inactivos (que ya no existen fiacutesicamente en la red aunque

continuacutean indexados)

En este sentido se empieza a hablar de una Internet para el gran puacuteblico y una

Internet de los recursos culturales cientiacuteficos y teacutecnicos La especializacioacuten de los

motores de buacutesqueda es una buena viacutea para conseguir mejores servicios de

informacioacuten la especializacioacuten conduce a la concentracioacuten del conocimiento en

ciertos lugares donde los usuarios pueden encontrar faacutecilmente los recursos

relacionados con su aacutembito de conocimiento

13 La Infranet o Internet invisible

La infranet o Internet invisible es el conjunto de recursos accesibles uacutenicamente a

traveacutes de alguacuten tipo de pasarela o formulario web y que por tanto no pueden ser

indizados de forma estructural por los robots de los motores de buacutesqueda

Muchos de estos recursos son de gran calidad y desde el punto de vista del gestor

de informacioacuten tienen una importancia clave en la recuperacioacuten de informacioacuten de

alto valor antildeadido Su invisibilidad para los motores de buacutesqueda implica una

dificultad considerable para la recuperacioacuten efectiva de estos recursos y requiere

aproximaciones novedosas por parte de los profesionales

131 Los recursos de la Internet invisible

La propia heterogeneidad formal de la informacioacuten en Internet puede plantear

dificultades a la hora de entender queacute recursos estaacuten incluido bajo la denominacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

17

de Internet Invisible Con el fin de clarificar queacute contenidos pueden resultar

invisibles se ha considerado una clasificacioacuten que atiende a criterios documentales

Bases de datos bibliograacuteficas se incluyen en este grupo los cataacutelogos de

biblioteca accesibles a traveacutes de una pasarela (OPAC) web otras bases de datos de

referencias bibliograacuteficas (de acceso puacuteblico o restringido ndashregistro previo gratuito o

de pago-) y entidades similares tales como los cataacutelogos de libreriacuteas (ej

Amazoncom)

Bases de datos alfanumeacutericas definidas por exclusioacuten del grupo anterior son

todas las bases de datos que no tienen caraacutecter bibliograacutefico Comprenderiacutea

ademaacutes los recursos llamados de referencia que requiren alguacuten tipo de pasarela de

acceso para su consulta (ej Encyclopaedia Britannica)

Una situacioacuten ligeramente distinta es la planteada por las paacuteginas generadas

dinaacutemicamente (asp jsp php o similares) Dichas paacuteginas soacutelo existen en virtud de

una consulta puntual imposible de realizar por los robots de los motores de

buacutesqueda y cuyo contenido puede alcanzar un considerable grado de

personalizacioacuten Desde un punto de vista documental los contenidos que explotan

estaacuten en una base de datos y por tanto se consideran dentro de esta categoriacutea

Archivos y revistas electroacutenicas se trata de bases de datos que incluyen

documentos a texto completo y que soacutelo se pueden recuperar previa identificacioacuten

de la referencia labor para la que se requiere utilizar una pasarela web simple

(formulario de consulta) o doble (palabra de acceso y formulario de consulta)

Ficheros no HTML o textuales el (relativo) fracaso de HTML original a la hora de

generar paacuteginas con una maquetacioacuten muy rica ha permitido que algunos formatos

de disentildeo maacutes elaborado hayan adquirido popularidad en la web (pdf ps ppt doc)

Estos formatos no textuales no son indizados correctamente por los robots de los

motores de buacutesqueda (excepcioacuten Googlecom ya indiza documentos pdf y los

convierte en HTML) y por tanto constituyen una parte del webespacio invisible que

ha ido adquiriendo cada vez maacutes importancia

132 La recuperacioacuten de la informacioacuten en la Internet invisible

La recuperacioacuten de la informacioacuten en la Internet invisible se apoya

fundamentalmente en la disponibilidad de directorios e iacutendices que identifiquen y

organicen su principales recursos El maacutes importante en el mercado espantildeol es la

sede espantildeola de Internet Invisible httpwwwinternetinvisiblecom

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

18

Las herramientas maacutes importantes para la recuperacioacuten de estos recursos de

informacioacuten invisibles son

Clientes Z3950 La progresiva adopcioacuten del protocolo Z3950 por la mayoriacutea de

las bibliotecas estaacute incrementando el valor de los clientes Z3950 que ya pueden

acceder a una masa criacutetica de recursos

Bookwhere 2000 Sea Change (wwwbookwherecom)

EzCat BookSystems (wwwbooksyscomezcat)

ZNavigator EnWare (wwwenwarees)

ZSearch Infoworks Technology (wwwitcompanycom)

ZPista Ifgenia Plus (wwwifigeniaeszeta)

Agentes inteligentes estos programas se han convertido en herramientas muy

populares en Internet que permiten superar algunos de los problemas

tradicionalmente asociados a los motores de buacutesqueda No todos los agentes

ofrecen acceso a recursos de la Internet invisible e incluso aquellos que asiacute lo hacen

lo presentan como opciones avanzadas normalmente no disponibles en las

versiones ldquosharewarerdquo

BullsEye Intelliseek (wwwintelliseekcom)

Copernic Copernic (wwwcoperniccom)

EZSearch American Systems (wwwamericansyscom)

LexiBot BrightPlanet (wwwlexibotcom)

WebSeeker Blue Squirrel (wwwbluesquirrelcom)

14 Bibliografiacutea

Aguillo Cantildeo Isidro (1999) Del multibuscador al metabuscador las agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

19

trazadores de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten

y la organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada p239-245

Aguillo Cantildeo Isidro (2001) Internet invisible o Infranet definicioacuten clasificacioacuten y

evaluacioacuten En Maldonado Martiacutenez Angeles La informacioacuten especializada en

Internet Madrid CSIC p 161-178

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I Information

World en Espantildeol vol 6 nordm 5 p 22-26

Codina Lluis (2003) Internet invisible y web semaacutentica iquestel futuro de los sistemas

de informacioacuten en liacutenea Revista tradumaacutetica nordm 2 2003

Cornella Alfons (2001) Mensaje 364 de Extra-Net la revista de infonomiacutea La

infranet iquestdoacutende esta el valor

Fernaacutendez de las Heras Joseacute Manuel Diacuteaz de Cerio Pako (2000) La Intranet del

conocimiento IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del

Conocimiento retos y soluciones de los profesionales de la informacioacuten Bilbao 19-

20-21 octubre 2000 p 567-574

Goacutemez Diacuteaz Raquel (2003) La evaluacioacuten en recuperacioacuten de la informacioacutenraquo

Hipertextnet nordm 1 (mayo 2003) httpwwwhipertextnetwebpag238htm

Marcos Mora Mariacutea del Carmen (2005) Elementos visuales en sistemas de

buacutesqueda y recuperacioacuten de la informacioacuten Hipertextnet nordm 3 (mayo 2005)

httpwwwhipertextnetwebpag257htm

Martiacutenez Francisco J Rodriacuteguez Muntildeoz Joseacute Vicente (2004) Reflexiones sobre la

evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesidad utilidad y

viabilidad Anales de documentacioacuten nuacutem 7 (2004) p 153-170

httpwwwumesfccdanalesad07ad0710pdf

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada 1999)

La representacioacuten y la organizacioacuten del conocimiento en sus distintas perspectivas

su influencia en la recuperacioacuten de informacioacuten Granada Isko Universidad de

Granada p 247-248

Vaquero JR (1997) Motores de buacutesqueda Information World en Espantildeol vol 6

nordm 7-8 p 31-32

Vidal Bordeacutes Francisco Javier Salvador Olivaacuten Joseacute Antonio (2000) La

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

20

implementacioacuten de metadatos y Dublin Core en sedes y paacuteginas web de bibliotecas

y centros de documentacioacuten de universidades y centros de investigacioacuten de la Red

IRIS IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del Conocimiento

retos y soluciones de los profesionales de la informacioacuten Bilbao 19-20-21 octubre

2000 p 197-210

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

21

15 Casos praacutecticos

151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda

PRESENTACIOacuteN

La recuperacioacuten del conocimiento mediante la utilizacioacuten de motores de buacutesqueda

es muy heterogeacutenea Cada motor indexa y recupera de una forma diferente Por

tanto es importante tener unos paraacutemetros para poder evaluar queacute motores de

buacutesqueda son los maacutes adecuados ante una necesidad de informacioacuten

OBJETIVOS

Conocer el funcionamiento de los motores de buacutesqueda

Utilizar una metodologiacutea para la evaluacioacuten de motores de buacutesqueda

ENUNCIADO

El estudiante deberaacute evaluar 3 motores de buacutesqueda de aacutembito internacional para

ello usaraacute una estrategia de buacutesqueda que aplicaraacute en los 3 motores

preseleccionados de forma que puedan apreciarse claramente las diferencias entre

eacutestos

Motores de buacutesqueda Googlecom Yahoocom Altavistacom

Estrategia de buacutesqueda digital libraries

Las caracteriacutesticas que pueden presentar los diferentes motores de buacutesqueda se

van a agrupar en tres apartados recogida de la informacioacuten buacutesqueda y

recuperacioacuten de la informacioacuten y presentacioacuten de los resultados

Recogida de informacioacuten En este apartado hay que determinar si el robot

es capaz de identificar las etiquetas ldquoMETArdquo de los documentos HTML y

extraer informacioacuten de las mismas para ser usada en la buacutesqueda o

presentacioacuten de resultados

Buacutesqueda Las caracteriacutesticas baacutesicas que un motor de buacutesqueda debe

cumplir desde el punto de vista de la recuperacioacuten de la informacioacuten son las

siguientes

o Formularios de buacutesqueda posibilidad de elegir entre simple o

avanzado

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

22

o Herramientas de buacutesqueda posibilidad de utilizar operadores

booleanos (AND OR NOT) pareacutentesis comillas para los teacuterminos

compuestos o frases y finalmente posibilidad de truncado en

palabras derivadas

o Clasificacioacuten temaacutetica existencia de un iacutendice general para aquellos

que no saben concretar su tema de buacutesqueda

o Campos de buacutesqueda posibilidad de limitar la buacutesqueda a campos

determinados tales como Tiacutetulo URL Descripcioacuten Palabras Clave

Localizacioacuten e Idioma

o Control del vocabulario descubrir si el motor dispone de alguna

herramienta para eliminar sinonimias y polisemias etc

o Deteccioacuten de novedades posibilidad de diferenciar los nuevos

recursos incorporados

Resultados Hay que tener en cuenta si el motor de buacutesqueda permite

elegir entre diferentes formatos de presentacioacuten de los resultados asiacute como

diversos criterios de ordenacioacuten

FORMATO

El establecido en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

23

CUADRO PARA LA EVALUACIOacuteN DE MOTORES DE BUacuteSQUEDA

Recogida de

informacioacuten

Buacutesqueda y Recuperacioacuten de Informacioacuten

Resultados

Formularios

Herramientas de buacutesqueda

Clasif

Campos de buacutesqueda

Format

Orden

MOTORES

Metadata No

Metadata

Simple Avanz

OR

AND

NOT

( )

ldquo ldquo

Tiacutet

URL

Desc

Keyw

Loc

Leng

Control

Vocab

Nov

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

24

152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda

PRESENTACIOacuteN

Una organizacioacuten ha destinado una partida presupuestaria para aumentar la

presencia web del ayuntamiento e implementar servicios y productos de

informacioacuten interactivos para los ciudadanos

Los departamentos de Informaacutetica Documentacioacuten y Comunicacioacuten estaacuten

colaborando en el proceso de compra de nuevo software que permita implementar

estas prestaciones y sea compatible con el back-office de la organizacioacuten

En la proacutexima reunioacuten se va a decidir queacute software para la implementacioacuten de un

motor de buacutesqueda en la Intranet y sitio web del ayuntamiento se va a adquirir

OBJETIVOS

Conocer las caracteriacutesticas de los principales software del mercado para la

implentacioacuten de tecnologiacutea pull para la recuperacioacuten de la informacioacuten

Presentar una aplicacioacuten praacutectica de la gestioacuten del conocimiento

(recuperacioacuten) en un entorno web

Evaluar un paquete de software con relacioacuten a unos criterios teacutecnicos y

metodoloacutegicos preestablecidos

ENUNCIADO

El estudiante es la persona que representa al Departamento de Documentacioacuten en

esta reunioacuten y debes presentar tu propuesta del paquetes de software que maacutes se

adapta a los requerimientos de la organizacioacuten

Los requerimientos establecidos en la reunioacuten anterior son

Software compatible con el Sistema de Informacioacuten del ayuntamiento

Oracle portal sobre UNIX Bases de datos Access y SQL Server JSP y

Dreamweaver Ultradev

Software compatible con cualquier plataforma web Intranet sitio web CD-

ROM DVD

Indexacioacuten de materiales diversos HTML XML asp php pdf doc etc

Entorno usable y familiar para el usuario interno y externo

Opciones de buacutesqueda avanzada operadores booleanos truncamiento

limitaciones de campo y otros

Indexacioacuten de paacuteginas HTML y de texto en varios idiomas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

25

FORMATO

El formato debe centildeirse a los siguientes apartados

1 Metodologiacutea de la evaluacioacuten [el estudiante debe enunciar las fuentes

consultadas y el conjunto de los paquetes de software analizados]

2 Evaluacioacuten del software [el estudiante debe recopilar la siguiente informacioacuten

del paquetes de software seleccionados]

Nombre del SW

Precio

Requerimientos que cumple

Compatibilidad con el sistema de informacioacuten

Compatibilidad con diferentes plataformas web

Indexacioacuten de materiales diversos

Usabilidad del entorno

Opciones de buacutesqueda

Idiomas

3 Propuesta del Departamento de Documentacioacuten[el estudiante debe comentar

algunos puntos a favor yo en contra del software propuesto como opcioacuten 1]

RECURSOS

Sullivan Danny Search Engine Software for your web site

SearchEngineWatchcom Sept 16 2002 (Consultado el 23-05-2006)

httpsearchenginewatchcomresourcessoftwarehtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

26

16 Anexo Introduccioacuten a Google

Presentacioacuten

Internet es una extensa red de documentos de muacuteltiples formatos desde paacuteginas

web en html a documentos de distintos tipos como puedan ser textos imaacutegenes

archivos de sonido o de viacutedeo etc Cuando necesitas buscar cierta informacioacuten en

Internet lo maacutes eficaz es utilizar un buscador ya que estas herramientas disponen

de robots que rastrean la web en busca de informacioacuten e indexan los documentos

seguacuten sus formatos y contenidos de tal forma que muestran a sus usuarios los

documentos relevantes con los criterios de buacutesqueda elegidos

Conocer adecuadamente las propiedades y herramientas de cada buscador nos

puede ayudar a restringir las buacutesquedas a lo que realmente es relevante para

nosotros sin embargo generalmente estos criterios son desconocidos por el

internauta medio ya que se basan en criterios documentales

Google es el buscador maacutes famoso y utilizado realizar una buacutesqueda bien acotada

es necesario incluir el maacuteximo de palabras relevantes para el usuario prestando

especial atencioacuten a los diferentes significados de una palabra Google determina los

resultados por las coincidencias y cercaniacutea de las palabras entre siacute Google tampoco

distingue entre mayuacutesculas y minuacutesculas ni acentos Entrecomillar frases obliga al

buscador a encontrar paacuteginas que tengan esa frase completa

Buacutesqueda sencilla

httpwwwgoogleesintleshelpbasicshtml

iquestQueacute operador booleano utilizan por defecto las buacutesquedas sencillas Pon un

ejemplo

iquestGoogle permite la utilizacioacuten de comodines () para limitar la buacutesqueda Pon un

ejemplo

iquestGoogle diferencia los acentos y las mayuacutesculas y minuacutesculas Pon un ejemplo

Restricciones en la buacutesqueda

httpwwwgoogleesintleshelprefinesearchhtml

iquestCoacutemo se excluye una palabra de una estrategia de buacutesqueda Por ejemplo de la

buacutesqueda [biblioteca arte moderno] queacute debo hacer para excluir la palabra

moderno

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

iquestQueacute debo hacer para buscar una frase por ejemplo [gran hermano]

iquestCoacutemo puedo buscar noticias sobre la guerra de Irak soacutelo en el sitio web del

Elmundoes Especifica la estrategia de buacutesqueda

Buacutesqueda avanzada

httpwwwgoogleesadvanced_searchhl=es

Los buscadores de internet han superado ampliamente las claacutesicas posibilidades de

filtrado de preguntas basadas en el aacutelgebra booleana (operadores Y NO O en

ingleacutes AND OR y NOT) Por ejemplo google descarta por defecto el operador

booleano OR (historia O roma) asumiendo que su base de datos es tan grande

que o intenta ser muy especiacutefico o el resultado obtenido en una consulta de este

tipo tendraacute demasiado ruido esto saldraacuten demasiadas respuestas Aun asiacute nos

permite utilizarlo a voluntad en su buacutesqueda avanzada

Asiacute google busca por defecto con el operador AND (historia Y roma) y es maacutes

aplica por defecto un operador NEAR decreciente NEAR busca paacuteginas en las que

aparezca historia y tambieacuten roma con una o maacutes palabras de separacioacuten entre

ambos conceptos El nuacutemero de palabras se regula por 123 etc copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

27

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 3: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

3

Indice de contenidos

Introduccioacuten 5

1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten 6

11 El lenguaje de interrogacioacuten 6

111 Operadores loacutegicos o booleanos 6

112 Operadores posicionales 8

1121 Operadores posicionales relativos 8

1122 Operadores posicionales absolutos 9

113 Operadores de truncamiento y de liacutemitecomparacioacuten 9

12 Las herramientas de recuperacioacuten de informacioacuten web 10

121 Tipos de herramientas de buacutesqueda y recuperacioacuten 11

1211 Los directorios o iacutendices temaacuteticos 11

1212 Los motores de buacutesqueda 12

1213 Los agentes inteligentes 12

122 Funcionamiento de los motores de buacutesqueda 14

123 Los metabuscadores 15

124 Tendencia actual de los motores de buacutesqueda 15

13 La Infranet o Internet invisible 16

131 Los recursos de la Internet invisible 16

132 La recuperacioacuten de la informacioacuten en la Internet invisible 17

14 Bibliografiacutea 18

15 Casos praacutecticos 21

151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda 21

152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda 24

16 Anexo Introduccioacuten a Google 26

2 El posicionamiento en los motores de buacutesqueda 31

21 Concepto de posicionamiento web 31

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

4

22 Criterios baacutesicos para el posicionamiento 31

221 Criterios de optimizacioacuten internos a la paacutegina web 32

222 Criterios de optimizacioacuten externos a la paacutegina web 34

23 Los metadatos y el posicionamiento web 35

231 Concepto de metadatos 35

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten 37

2321 La iniciativa Dublin Core 38

2322 Los elementos Dublin Core 38

24 La optimizacioacuten de las palabras clave 39

25 La planificacioacuten de un proyecto de posicionamiento 41

251 Plan de posicionamiento 41

252 Alta en los principales buscadores 41

253 Enlaces patrocinados 42

254 Servicios de consultoriacutea 43

26 Bibliografiacutea 44

27 Caso praacutectico Plan de posicionamiento web 45

3 Los agentes inteligentes de informacioacuten 50

31 Concepto de agente inteligente 50

32 Caracteriacutesticas de los agentes 51

33 Aplicaciones de los agentes 51

34 Clasificacioacuten de los agentes inteligentes 53

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten 54

36 Bibliografiacutea 55

37 Caso praacutectico Comparacioacuten Google versus Copernic 58

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

5

Introduccioacuten

Los mayores motores de buacutesqueda apenas cubren un 20-25 del web mientras

que los principales iacutendices es dudoso que lleguen a un 5 La desventaja de este

ingente volumen de informacioacuten es que por razones de celeridad en la respuesta

obliga a limitar las prestaciones de buacutesqueda de forma que suelen faltar ciertas

capacidades avanzadas Otros problemas importantes derivan de la diferente

cobertura de la red (las sedes comerciales y de los paiacuteses desarrollados estaacuten mejor

indizadas) el elevado porcentaje de enlaces no activos y la desactualizacioacuten de los

recursos debido a frecuencia de revisioacuten muy baja o inadecuada

Las herramientas de motor de buacutesqueda estaacuten instaladas en el ordenador remoto y

por tanto limitadas por restricciones generalmente ajenas al usuario final Una

nueva generacioacuten de herramientas y la adopcioacuten de nuevas estrategias pueden

ayudar significativamente asiacute como el reconocimiento de nuevas realidades y el

descubrimiento de fuentes ocultas de datos relevantes hasta la fecha

frecuentemente infrautilizados

Las herramientas de segunda generacioacuten instaladas en el ordenador cliente son

capaces de tratar con grandes voluacutemenes de informacioacuten automatizando tareas

que incrementan la productividad final de los recursos recuperados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

6

1 Los motores de buacutesqueda y la recuperacioacuten de la

informacioacuten

La recuperacioacuten de la informacioacuten (RI) es una operacioacuten en la que se interpreta una

necesidad de informacioacuten de un usuario y se seleccionan los documentos maacutes

relevantes capaces de solucionarla En el contexto de Internet se puede definir el

objetivo de la recuperacioacuten como la identificacioacuten de una o maacutes referencias de

paacuteginas web que resulten relevantes para satisfacer una necesidad de informacioacuten

11 El lenguaje de interrogacioacuten

Un lenguaje de interrogacioacuten es el conjunto de opciones (oacuterdenes operadores y

estructuras) que organizados seguacuten normas loacutegicas permiten la consulta de los

recursos de informacioacuten mediante una expresioacuten llamada ecuacioacuten de buacutesqueda

Las oacuterdenes son aquellas palabras o abreviaturas que indican al sistema las

acciones a ejecutar (buscara la expresioacuten mostrar los registros resultantes

de una buacutesqueda ejecutar un perfil de usuario)

Los operadores son los encargados de expresar las relaciones que

mantienen entre siacute los teacuterminos que pueden definir las necesidades

informativas del usuario

Si bien inicialmente las ecuaciones de buacutesqueda se formulaban mediante la

formulacioacuten textual de expresiones la implantacioacuten de interfaces graacuteficas a partir

de los antildeos 80 llevoacute al uso de nuevos entornos de seleccioacuten donde el usuario soacutelo

debe introducir los teacuterminos y guiarse por un sistema de botones y menuacutes

desplegables

111 Operadores loacutegicos o booleanos

Llamados asiacute en honor a George Boole matemaacutetico del siglo XIX que fue el

precursor de la loacutegica simboacutelica y el aacutelgebra de Boole (teoriacutea de conjuntos) es uno

de los meacutetodos maacutes extendidos de especificar las buacutesquedas en la mayoriacutea de

sistemas Se basan en tres operaciones loacutegicas baacutesicas

Interseccioacuten de conjuntos AND Y Operador que indica que deben estar

incluidos en los resultados de la buacutesqueda los teacuterminos unidos por esta

partiacutecula Es un operador restrictivo puesto que elimina aquellos

documentos en los que no aparecen todos los teacuterminos de la expresioacuten de

buacutesqueda

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Ejemplo bullseye AND copernic indica que deben aparecer en el documento

las dos palabras si no es asiacute se excluiraacute el documento

Unioacuten o suma de conjuntos OR O Indica que cualquiera de las palabras

que esteacuten unidos por este operador debe aparecer en el documento las

restantes no tienen que estar presentes Es un operador de ampliacioacuten pues

soacutelo deberaacute aparecer uno o alguno de los teacuterminos de la expresioacuten de

buacutesqueda

Ejemplo bullseye OR copernic puede aparecer en el documento la palabra

bullseye o copernic o ambas

Exclusioacuten de conjuntos NO AND NOT Operador que excluye de un

documento la palabra no deseada Es un operador de restriccioacuten pues se

seleccionan aquellos documentos que contienen el primer teacutermino de

buacutesqueda pero no el segundo

Ejemplo Knowbots AND NOT copernic recupera todos los documentos que

contengan la palabra Knowbots pero que no contengan la palabra copernic

En la elaboracioacuten de una ecuacioacuten de buacutesqueda es habitual la combinacioacuten de maacutes

de uno de estos operadores por lo que seraacute necesario conocer en profundidad el

sistema para saber las prioridades a la hora de su ejecucioacuten puesto que los copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

7

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

8

resultados pueden variar sustancialmente A menudo estas prioridades vienen

marcadas por el uso de pareacutentesis de manera que se ejecuta en primer lugar el

operador que une los teacuterminos que estaacuten entre pareacutentesis

Ejemplo (bullseye OR copernic OR lexibot) AND (agentes inteligentes)

recupera los documentos que contengan los terminos agentes inteligentes y

copernic o bullseye o lexibot

112 Operadores posicionales

Los operadores posicionales toman como partida la posicioacuten del teacutermino en

relacioacuten a su contexto es decir en relacioacuten a los otros teacuterminos y al documento

Estos operadores se pueden dividir en dos tipos los relativos y los absolutos

1121 Operadores posicionales relativos

A menudo llamados operadores de adyacencia o proximidad Permiten definir al

sistema de buacutesqueda la distancia que puede existir entre un teacutermino y otro Se

pueden buscar teacuterminos que esteacuten juntas separadas por varias palabras o

caracteres que se encuentren en una misma frase o un mismo paacuterrafo e incluso

si se debe o no respetar el orden de los teacuterminos Existe una gran variedad de

operadores de adyacencia y expresan diferentes situaciones seguacuten los sistemas

NEAR operador que obliga a estar a un nuacutemero determinado de distancia

las palabras claves a recuperar Este nuacutemero variacutea en funcioacuten de los

diferentes programas de recuperacioacuten de la informacioacuten asiacute por ejemplo

mientras en Altavista significa un maacuteximo de 10 palabras entre los

teacuterminos en WebCrawler significa un maacuteximo de 2 palabras

Ejemplo bullseye NEAR copernic recupera textos con frases como

ldquobullseye es mejor que copernicrdquo o ldquocopernic tiene maacutes motores que

bullseyerdquo

NEARN realiza la misma operacioacuten que NEAR pero N es sustituido por la

distancia en palabras que deben estar separados los teacuterminos de

buacutesqueda

Ejemplo bullseye NEAR5 copernic recupera todos los documentos que

aparezcan los dos terminos y cuya separacioacuten no sea mayor a cinco

palabras

Otra posibilidad es hacer una buacutesqueda de una frase exacta Consiste en la

interseccioacuten de las palabras de buacutesqueda que ademaacutes estaacuten adyacentes y en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

9

el orden en que se describen

ldquo rdquo emplear las comillas expresa que debe aparecer la frase exacta y en el

mismo orden

Ejemplo ldquocomparacioacuten de agentes inteligentesrdquo tiene que aparecer esta frase

en los documentos para que sean recuperados

1122 Operadores posicionales absolutos

Se trata de operadores que permiten buscar el o los teacuterminos en un lugar

determinado del documento En general son operadores delimitadores de un

campo

Link recupera todos los links que contenga el teacutermino buscado

Ejemplo Linkldquoagentes inteligentesrdquo recupera todos los links que contenga la

frase exacta agentes inteligentes

Title recupera en los tiacutetulos de web correos etc la palabras deseadas

Ejemplo Titleldquoagentes inteligentesrdquo recupera uacutenicamente del tiacutetulo la frase

exacta

Url busca url que contengan los teacuterminos de la ecuacioacuten de buacutesqueda

Ejemplo Urlldquougresrdquo presenta todos las paacuteginas web de la Universidad de

Granada

Body recupera del cuerpo del documento el conjunto de palabras deseadas

Ejemplo Bodyldquoagentes inteligentesrdquo recupera del cuerpo del documento

uacutenicamente la frase exacta de la ecuacioacuten de buacutesqueda

113 Operadores de truncamiento y de liacutemitecomparacioacuten

Operadores de comparacioacuten o de rango Limitan la buacutesqueda mediante una

expresioacuten que establece un rango de valores especialmente numeacutericos

Corresponden a formas tipo ldquoigual querdquo(simbolizado por = EQ) ldquomayor

querdquo (simbolizado por gt GT) ldquomenor querdquo( simbolizado por lt LT) o

operadores de inteacutervalos (simbolizado por un guioacuten to gtlt)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

10

Operadores de truncamiento o maacutescaras Los truncamientos ayudan a

buscar todas las posibilidades semaacutenticas de un teacutermino por ejemplo sus

derivados fijados por prefjiacioacuten o sufijacioacuten las variantes leacutexicas Asiacute los

llamados caracteres comodiacuten como el asterisco () o la interrogacioacuten ()

sustituyen un caraacutecter o un conjunto de caracteres

Ejemplo document recupera todas las palabras que contengan esta raiz

por ejemplo documento documentos documentalista documentado etc

12 Las herramientas de recuperacioacuten de informacioacuten web

En Espantildea existen diferentes imprecisiones terminoloacutegicas a este respecto Por un

lado a los motores de buacutesqueda se les ha denominado con otros teacuterminos

sinoacutenimos tales como buscadores rastreadores webcrawlers agentes iacutendices

directorios Por otro durante cierto tiempo se han confundido tres tecnologiacuteas que

ahora tienen autonomiacutea propia los iacutendices temaacuteticosdirectorios los motores de

buacutesqueda y los agentes inteligentes

En principio la diferencia entre motor de buacutesqueda e iacutendice temaacutetico o directorio

parece clara Un iacutendice temaacutetico es una paacutegina web (sitio web) en donde las

distintas materias se encuentran organizadas en torno a un conjunto de epiacutegrafes

Esta diferencia se tambalea cuando nos encontramos con iacutendices temaacuteticos como

Yahoo (wwwyahoocom) que presenta un interfaz similar a los motores e incluso

permite realizar buacutesquedas sobre los recursos que tiene sistematizados En general

la diferencia radica en el hecho de que los iacutendices temaacuteticos contienen direcciones

que son recopiladas organizadas y clasificadas manualmente y la buacutesqueda se lleva

a cabo exclusivamente sobre los recursos indexados del directorio

Los agentes inteligentes pueden realizar una serie de tareas sin que los humanos u

otros agentes les tengan que decir queacute hacer a cada paso que dan en su camino

Se diferencian de los motores de buacutesqueda en que eacutestos albergan contenidos

estaacuteticos (aunque se actualizan con cierta frecuencia) y responden directamente a

las peticiones de los usuarios Si un motor de buacutesqueda pudiera almacenar

peticiones de los usuarios y notificarles la llegada de informacioacuten uacutetil entonces el

motor de buacutesqueda seriacutea un agente Sin embargo la diferenciacioacuten no es

radicalmente clara puesto que se denominan agentes inteligentes a softwares que

realmente no lo son

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

11

121 Tipos de herramientas de buacutesqueda y recuperacioacuten

A continuacioacuten se presenta una definicioacuten estaacutendar de cada una de las herramientas

de buacutesqueda y recuperacioacuten de informacioacuten mencionadas anteriormente

1211 Los directorios o iacutendices temaacuteticos

Los directorios o iacutendices presentan una seleccioacuten de recursos webs organizados

siguiendo una estructura o clasificacioacuten jeraacuterquica de materias que va de categoriacuteas

maacutes amplias a categoriacuteas maacutes especiacuteficas Los directorios se exploran mediante la

navegacioacuten (browsing) de una base de datos de documentos web compilados

recogidos y organizados manualmente por expertos (ayudados por robots de

localizacioacuten automaacutetica de recursos en la red) La buacutesqueda jeraacuterquica sirve al

usuario de guiacutea permitiendo acceder a la informacioacuten en el contexto temaacutetico al

que pertenece y en relacioacuten a otras aacutereas temaacuteticas

Los directorios tambieacuten presentan un motor de buacutesqueda interno para localizar

directamente recursos de la base de datos mediante diferentes ecuaciones de

buacutesqueda y palabras clave obviando de esta manera el uso del directorio temaacutetico

Los sistemas de buacutesqueda por palabras pueden actuar de dos maneras

Sobre la clasificacioacuten en una seccioacuten de ella (cuando por ejemplo

sabemos en queacute parte del directorio podemos localizar la informacioacuten

que nos interesa)

Sobre las paacuteginas pero en este caso se limitan a la informacioacuten

recopilada por el iacutendice (fundamentalmente sitios web no paacuteginas)

Asiacute pues la buacutesqueda de informacioacuten en los directorios puede hacerse bien de

forma guiada mediante clasificaciones jeraacuterquicas bien a partir de teacuterminos

especiacuteficos

Los directorios maacutes comunes son aquellos que ofrecen una navegacioacuten por temas

y con una cobertura generalista como por ejemplo Yahoo (Yet Another

Hierarchical Officious Oracle) Sin embargo tambieacuten existen directorios que

permiten por ejemplo una navegacioacuten geograacutefica (Virtual Tourist

httpwwwvirtualtouristcom ) o directorios especializados

Los servicios de consulta basados en directorios han ido incorporando prestaciones

y han evolucionado hacia lo que actualmente se llaman portales un conjunto de

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

12

servicios que pretende satisfacer todas las necesidades de los usuarios de Internet

(cuentas de correo electroacutenico chat paacuteginas amarillas y blancas informacioacuten

metereoloacutegica y de la bolsa servicio de noticias)

1212 Los motores de buacutesqueda

Los motores de buacutesqueda o buscadores tienen sus antecedentes en los simples

listados de direcciones de recursos y documentos de la red y son la respuesta al

raacutepido volumen de crecimiento dela red que supera la capacidad de los recursos

humanos de los directorios ndash que por ello suelen ser selectivos - Los buscadores

son bases de datos creadas por indizacioacuten automaacutetica del texto completo de las

paacuteginas web y realizada por un programa llamado robot Este robot loacutegico o

arantildea (spider) explora de forma automaacutetica los servidores extrayendo las palabras

maacutes significativas de cada paacutegina y creando un iacutendice de buacutesqueda Aun cuando

los programas lleguen a ser similares no existen dos programas de buacutesqueda

exactamente similares en teacuterminos de tamantildeo velocidad y contenido no existen

dos motores de buacutesqueda que utilicen coincidentemente el mismo listado de

relevancia y tampoco cada motor de buacutesqueda ofrece las mismas opciones de

buacutesqueda Por lo tanto su buacutesqueda resultaraacute diferente en cada motor utilizado La

diferencia podriacutea no ser mucha pero siacute significativa

Existe una gran porcioacuten de la red que las ldquoarantildeasrdquo de los buscadores no pueden o

no alcanzan a indizar Se las nombra como la Red Invisible o la Red profunda e

incluye entre otras cosas sitios protegidos por contrasentildeas documentos detraacutes de

ldquocortinas de fuegordquo material archivado herramientas interactivas y los contenidos

de ciertas bases de datos

Los servicios de consulta basados en directorios y motores de buacutesqueda han ido

incorporando prestaciones y han evolucionado hacia lo que actualmente se llaman

portales un conjunto de servicios que pretende satisfacer todas las necesidades de

los usuarios de Internet (cuentas de correo electroacutenico chat paacuteginas amarillas y

blancas informacioacuten metereoloacutegica y de la bolsa servicio de noticias)

1213 Los agentes inteligentes

Un agente es una entidad autoacutenoma capaz de almacenar conocimiento sobre siacute

misma y sobre su entorno con unos objetivos y capacidad Asimismo 8n agente

inteligente es un programa que basaacutendose en su propio conocimiento realiza un

conjunto de operaciones para satisfacer las necesidades de un usuario o de otro

programa bien por iniciativa propia o porque alguno de estos se lo requiere

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

13

Seguacuten las leyes de la inteligencia artificial debe de tener las siguientes

caracteriacutesticas

Autonomiacutea Debe actuar sin ninguacuten tipo de intervencioacuten humana directa

y tener control sobre sus propios actos

Sociabilidad Comunicatividad Debe de ser capaz de comunicarse

mediante un lenguaje comuacuten con otros agentes e incluso con los

humanos

Capacidad de reaccioacuten Percibe su entorno y reaccionar para adaptarse a

eacutel (por ejemplo ante una palabra mal escrita determinar queacute es a traveacutes

del contexto)

Iniciativa Emprende las acciones necesarias para resolver un problema

Tipologiacuteas de herramientas de segunda generacioacuten (agentes inteligentes)

Clientes z3950 Permiten la consulta simultaacutenea de un elevado nuacutemero de

servidores mediante un uacutenico protocolo es decir un uacutenico interfaz y

lenguaje de interrogacioacuten Es especialmente uacutetil en recuperar la informacioacuten

que se encuentra en la llamada ldquoInternet invisiblerdquo informacioacuten que no es

indizada por los motores de buacutesqueda ndash por ejemplo las bases de datos -

Volcadores Permiten volcar automaacuteticamente una copia ideacutentica de sedes

directorios y documentos manteniendo su estructura y sus elementos ndash

incluso los enlaces - y creando asiacute un archivo offline Se puede programar

la hora del volcado reduciendo considerablemente el tiempo y el coste y

permite activar el vuelco de diferentes tipos especiales de documentos (

html doc pdf gif )

Mutibuscadores o metabuscadores Permiten realizar la recuperacioacuten de la

informacioacuten en varios motores de buacutesqueda simultaacuteneamente A diferencia

de los multibuscadores de primera generacioacuten la mayoriacutea de las tareas

pueden automatizarse y son muy flexibles en su configuracioacuten traducen

expresiones en lenguaje natural enviacutean los perfiles a varios motores de

buacutesqueda y procesan los resultados eliminando los duplicados y ordenando

los contenidos seguacuten criterios y formatos definibles

Trazadores Permiten la buacutesqueda en las paacuteginas enlazadas desde una

paacutegina web determinada o desde una lista de resultados de un buscador

Desde esta primera sede llamada ldquosemillardquo y aprovechando la naturaleza

hipertextual de Internet van comprobaacutendose las paacuteginas que se encuentran

enlazadas seguacuten una serie de criterios de pertinencia y asiacute sucesivamente

hasta un nivel prefijado Aunque generan mucho ruido y es una teacutecnica

lenta permite recuperar informacioacuten que es imposible de localizar para los

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

14

buscadores

Indizadores Permiten indizar y resumir automaacuteticamente diferentes paacuteginas

web y exportar los resultados en diferentes formatos reutilizables por

editores web

Mapeadores Describen iacutentegramente una sede detallando cada fichero y

directorio y proporcionando un mapa de contenidos Permiten obtener

datos numeacutericos que ayudan a evaluar dichos contenidos y establecer una

comparativa entre diferentes sedes web ndash en base a valores como el

tamantildeo la densidad hipermedia de la sede su estructura de niveles la

tipologiacutea de enlaces etc

122 Funcionamiento de los motores de buacutesqueda

Un motor de buacutesqueda estaacute formado por cuatro elementos baacutesicos

1 Un programa (tambieacuten denominado robot rastreador o webcrawler) que recorre

el WWW buscando recursos de informacioacuten y sus respectivas URLs

2 Un sistema automaacutetico de anaacutelisis de contenidos e indexacioacuten de los

documentos localizados por el robot

3 Un sistema de interrogacioacuten generalmente basado en la loacutegica booleana que

permite al usuario expresar su necesidad de informacioacuten

4 Un programa que actuacutea de pasarela entre el servidor de documentos html y la

base de datos

Funcionamiento el motor de buacutesqueda recibe la consulta del usuario (query)

formada por uno o maacutes teacuterminos realiza una consulta interna en la base de datos

que contiene los recursos web indexados y ofrece una lista de aquellos recursos que

cumplen una parte o el total de los requisitos establecidos en la consulta

Generalmente los resultados aparecen ordenados seguacuten una puntuacioacuten (score)

que el programa asocia automaacuteticamente a cada recurso

Para realizar una consulta es necesario tener en cuenta un conjunto de variables

1 Lenguaje de interrogacioacuten que debe ofrecer diferentes tipos de operadores

loacutegicos de comparacioacuten de truncamiento de proximidad de especificacioacuten de

campo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

15

2 Posibilidad de refinar (refine) una buacutesqueda inicial

3 Campos limitadores que nos permitan reducir la buacutesqueda dominios lenguas

paiacuteses fecha de creacioacuten del recurso

4 Buacutesquedas alternativas buacutesqueda simple buacutesqueda avanzada buacutesquedas

combinando operadores e iacutendices temaacuteticos etc

5 Opciones avanzadas buscar diferentes recursos (texto sonido imagen)

guardar y reutilizar buacutesquedas diferentes formatos en los resultados de

buacutesqueda (estaacutendard detallado compacto etc) buacutesqueda de conceptos

relacionados (related topics) consulta directa en bases de datos (infranets)

etc

123 Los metabuscadores

La gran cantidad de informacioacuten y el notable aumento de motores de buacutesqueda

accesibles desemboca en la necesidad de realizar consultas simultaacuteneas en

diferentes motores de buacutesqueda y con una sola estrategia (query) De esta

necesidad surgen los denominados ldquometabuscadoresrdquo que ofrecen nuevas

prestaciones y mejores y maacutes exhaustivos resultados de buacutesqueda

Los metabuscadores permiten automatizar el proceso de realizar una misma

consulta en diversos motores de buacutesqueda lo cual no significa que sea totalmente

exhaustivo puesto que el metabuscador enviacutea la consulta solamente a aquellos

motores de buacutesqueda con los que ha establecido un acuerdo previo

En el funcionamiento de los metabuscadores cabe destacar algunas variables

interesantes Por una lado la exhaustividad no estaacute garantizada (desde el

momento en el que sabemos que un motor de buacutesqueda es capaz de indexar a lo

sumo un 30 de los recursos web disponibles) Por otro los tiempos de respuesta

pueden ser mucho maacutes largos dada la necesidad de realizar muacuteltiples buacutesquedas

simultaacuteneas (Metacrawler permite delimitar el tiempo maacuteximo de espera de 1 a 10

minutos) ademaacutes la recuperacioacuten de recursos duplicados suele ser muy elevada

por ello algunos metabuscadores ya han implementado la utilidad que permite

eliminar los duplicados

124 Tendencia actual de los motores de buacutesqueda

Partiendo de los problemas actuales que presentan los motores de buacutesqueda en

cuanto a su funcionamiento y los resultados ofrecidos se pueden adelantar algunas

viacuteas de solucioacuten futura que marcan la tendencia en la evolucioacuten de los motores de

buacutesqueda

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

16

Los resultados de la buacutesqueda pueden ser satisfactorios o no tanto Los motores de

buacutesqueda ofrecen resultados muy diferentes ante una misma cuestioacuten inicial este

hecho demuestra la poca exhaustividad de los motores en la indexacioacuten de los

recursos web y pone de manifiesto los problemas derivados de la escasez de control

linguumliacutestico

Actualmente se aboga por la incorporacioacuten de herramientas de anaacutelisis linguumliacutestico y

control terminoloacutegico en los motores de buacutesqueda de forma que sea posible

efectuar una recuperacioacuten menos ligada a la comparacioacuten de cadenas de caracteres

y maacutes vinculada a la comparacioacuten de conceptos

La escasa calidad de la informacioacuten recuperada es otro inconveniente de los

actuales motores de buacutesqueda Los mecanismos para aumentar la precisioacuten en la

buacutesqueda (refinamientos buacutesquedas avanzadas acotacioacuten por dominios etc) a

veces no funcionan como cabriacutea esperar A ello hay que antildeadir el miacutenimo valor de

algunos de los sitios web recuperados el porcentaje de recursos repetidos y el

porcentaje de recursos inactivos (que ya no existen fiacutesicamente en la red aunque

continuacutean indexados)

En este sentido se empieza a hablar de una Internet para el gran puacuteblico y una

Internet de los recursos culturales cientiacuteficos y teacutecnicos La especializacioacuten de los

motores de buacutesqueda es una buena viacutea para conseguir mejores servicios de

informacioacuten la especializacioacuten conduce a la concentracioacuten del conocimiento en

ciertos lugares donde los usuarios pueden encontrar faacutecilmente los recursos

relacionados con su aacutembito de conocimiento

13 La Infranet o Internet invisible

La infranet o Internet invisible es el conjunto de recursos accesibles uacutenicamente a

traveacutes de alguacuten tipo de pasarela o formulario web y que por tanto no pueden ser

indizados de forma estructural por los robots de los motores de buacutesqueda

Muchos de estos recursos son de gran calidad y desde el punto de vista del gestor

de informacioacuten tienen una importancia clave en la recuperacioacuten de informacioacuten de

alto valor antildeadido Su invisibilidad para los motores de buacutesqueda implica una

dificultad considerable para la recuperacioacuten efectiva de estos recursos y requiere

aproximaciones novedosas por parte de los profesionales

131 Los recursos de la Internet invisible

La propia heterogeneidad formal de la informacioacuten en Internet puede plantear

dificultades a la hora de entender queacute recursos estaacuten incluido bajo la denominacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

17

de Internet Invisible Con el fin de clarificar queacute contenidos pueden resultar

invisibles se ha considerado una clasificacioacuten que atiende a criterios documentales

Bases de datos bibliograacuteficas se incluyen en este grupo los cataacutelogos de

biblioteca accesibles a traveacutes de una pasarela (OPAC) web otras bases de datos de

referencias bibliograacuteficas (de acceso puacuteblico o restringido ndashregistro previo gratuito o

de pago-) y entidades similares tales como los cataacutelogos de libreriacuteas (ej

Amazoncom)

Bases de datos alfanumeacutericas definidas por exclusioacuten del grupo anterior son

todas las bases de datos que no tienen caraacutecter bibliograacutefico Comprenderiacutea

ademaacutes los recursos llamados de referencia que requiren alguacuten tipo de pasarela de

acceso para su consulta (ej Encyclopaedia Britannica)

Una situacioacuten ligeramente distinta es la planteada por las paacuteginas generadas

dinaacutemicamente (asp jsp php o similares) Dichas paacuteginas soacutelo existen en virtud de

una consulta puntual imposible de realizar por los robots de los motores de

buacutesqueda y cuyo contenido puede alcanzar un considerable grado de

personalizacioacuten Desde un punto de vista documental los contenidos que explotan

estaacuten en una base de datos y por tanto se consideran dentro de esta categoriacutea

Archivos y revistas electroacutenicas se trata de bases de datos que incluyen

documentos a texto completo y que soacutelo se pueden recuperar previa identificacioacuten

de la referencia labor para la que se requiere utilizar una pasarela web simple

(formulario de consulta) o doble (palabra de acceso y formulario de consulta)

Ficheros no HTML o textuales el (relativo) fracaso de HTML original a la hora de

generar paacuteginas con una maquetacioacuten muy rica ha permitido que algunos formatos

de disentildeo maacutes elaborado hayan adquirido popularidad en la web (pdf ps ppt doc)

Estos formatos no textuales no son indizados correctamente por los robots de los

motores de buacutesqueda (excepcioacuten Googlecom ya indiza documentos pdf y los

convierte en HTML) y por tanto constituyen una parte del webespacio invisible que

ha ido adquiriendo cada vez maacutes importancia

132 La recuperacioacuten de la informacioacuten en la Internet invisible

La recuperacioacuten de la informacioacuten en la Internet invisible se apoya

fundamentalmente en la disponibilidad de directorios e iacutendices que identifiquen y

organicen su principales recursos El maacutes importante en el mercado espantildeol es la

sede espantildeola de Internet Invisible httpwwwinternetinvisiblecom

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

18

Las herramientas maacutes importantes para la recuperacioacuten de estos recursos de

informacioacuten invisibles son

Clientes Z3950 La progresiva adopcioacuten del protocolo Z3950 por la mayoriacutea de

las bibliotecas estaacute incrementando el valor de los clientes Z3950 que ya pueden

acceder a una masa criacutetica de recursos

Bookwhere 2000 Sea Change (wwwbookwherecom)

EzCat BookSystems (wwwbooksyscomezcat)

ZNavigator EnWare (wwwenwarees)

ZSearch Infoworks Technology (wwwitcompanycom)

ZPista Ifgenia Plus (wwwifigeniaeszeta)

Agentes inteligentes estos programas se han convertido en herramientas muy

populares en Internet que permiten superar algunos de los problemas

tradicionalmente asociados a los motores de buacutesqueda No todos los agentes

ofrecen acceso a recursos de la Internet invisible e incluso aquellos que asiacute lo hacen

lo presentan como opciones avanzadas normalmente no disponibles en las

versiones ldquosharewarerdquo

BullsEye Intelliseek (wwwintelliseekcom)

Copernic Copernic (wwwcoperniccom)

EZSearch American Systems (wwwamericansyscom)

LexiBot BrightPlanet (wwwlexibotcom)

WebSeeker Blue Squirrel (wwwbluesquirrelcom)

14 Bibliografiacutea

Aguillo Cantildeo Isidro (1999) Del multibuscador al metabuscador las agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

19

trazadores de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten

y la organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada p239-245

Aguillo Cantildeo Isidro (2001) Internet invisible o Infranet definicioacuten clasificacioacuten y

evaluacioacuten En Maldonado Martiacutenez Angeles La informacioacuten especializada en

Internet Madrid CSIC p 161-178

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I Information

World en Espantildeol vol 6 nordm 5 p 22-26

Codina Lluis (2003) Internet invisible y web semaacutentica iquestel futuro de los sistemas

de informacioacuten en liacutenea Revista tradumaacutetica nordm 2 2003

Cornella Alfons (2001) Mensaje 364 de Extra-Net la revista de infonomiacutea La

infranet iquestdoacutende esta el valor

Fernaacutendez de las Heras Joseacute Manuel Diacuteaz de Cerio Pako (2000) La Intranet del

conocimiento IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del

Conocimiento retos y soluciones de los profesionales de la informacioacuten Bilbao 19-

20-21 octubre 2000 p 567-574

Goacutemez Diacuteaz Raquel (2003) La evaluacioacuten en recuperacioacuten de la informacioacutenraquo

Hipertextnet nordm 1 (mayo 2003) httpwwwhipertextnetwebpag238htm

Marcos Mora Mariacutea del Carmen (2005) Elementos visuales en sistemas de

buacutesqueda y recuperacioacuten de la informacioacuten Hipertextnet nordm 3 (mayo 2005)

httpwwwhipertextnetwebpag257htm

Martiacutenez Francisco J Rodriacuteguez Muntildeoz Joseacute Vicente (2004) Reflexiones sobre la

evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesidad utilidad y

viabilidad Anales de documentacioacuten nuacutem 7 (2004) p 153-170

httpwwwumesfccdanalesad07ad0710pdf

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada 1999)

La representacioacuten y la organizacioacuten del conocimiento en sus distintas perspectivas

su influencia en la recuperacioacuten de informacioacuten Granada Isko Universidad de

Granada p 247-248

Vaquero JR (1997) Motores de buacutesqueda Information World en Espantildeol vol 6

nordm 7-8 p 31-32

Vidal Bordeacutes Francisco Javier Salvador Olivaacuten Joseacute Antonio (2000) La

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

20

implementacioacuten de metadatos y Dublin Core en sedes y paacuteginas web de bibliotecas

y centros de documentacioacuten de universidades y centros de investigacioacuten de la Red

IRIS IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del Conocimiento

retos y soluciones de los profesionales de la informacioacuten Bilbao 19-20-21 octubre

2000 p 197-210

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

21

15 Casos praacutecticos

151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda

PRESENTACIOacuteN

La recuperacioacuten del conocimiento mediante la utilizacioacuten de motores de buacutesqueda

es muy heterogeacutenea Cada motor indexa y recupera de una forma diferente Por

tanto es importante tener unos paraacutemetros para poder evaluar queacute motores de

buacutesqueda son los maacutes adecuados ante una necesidad de informacioacuten

OBJETIVOS

Conocer el funcionamiento de los motores de buacutesqueda

Utilizar una metodologiacutea para la evaluacioacuten de motores de buacutesqueda

ENUNCIADO

El estudiante deberaacute evaluar 3 motores de buacutesqueda de aacutembito internacional para

ello usaraacute una estrategia de buacutesqueda que aplicaraacute en los 3 motores

preseleccionados de forma que puedan apreciarse claramente las diferencias entre

eacutestos

Motores de buacutesqueda Googlecom Yahoocom Altavistacom

Estrategia de buacutesqueda digital libraries

Las caracteriacutesticas que pueden presentar los diferentes motores de buacutesqueda se

van a agrupar en tres apartados recogida de la informacioacuten buacutesqueda y

recuperacioacuten de la informacioacuten y presentacioacuten de los resultados

Recogida de informacioacuten En este apartado hay que determinar si el robot

es capaz de identificar las etiquetas ldquoMETArdquo de los documentos HTML y

extraer informacioacuten de las mismas para ser usada en la buacutesqueda o

presentacioacuten de resultados

Buacutesqueda Las caracteriacutesticas baacutesicas que un motor de buacutesqueda debe

cumplir desde el punto de vista de la recuperacioacuten de la informacioacuten son las

siguientes

o Formularios de buacutesqueda posibilidad de elegir entre simple o

avanzado

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

22

o Herramientas de buacutesqueda posibilidad de utilizar operadores

booleanos (AND OR NOT) pareacutentesis comillas para los teacuterminos

compuestos o frases y finalmente posibilidad de truncado en

palabras derivadas

o Clasificacioacuten temaacutetica existencia de un iacutendice general para aquellos

que no saben concretar su tema de buacutesqueda

o Campos de buacutesqueda posibilidad de limitar la buacutesqueda a campos

determinados tales como Tiacutetulo URL Descripcioacuten Palabras Clave

Localizacioacuten e Idioma

o Control del vocabulario descubrir si el motor dispone de alguna

herramienta para eliminar sinonimias y polisemias etc

o Deteccioacuten de novedades posibilidad de diferenciar los nuevos

recursos incorporados

Resultados Hay que tener en cuenta si el motor de buacutesqueda permite

elegir entre diferentes formatos de presentacioacuten de los resultados asiacute como

diversos criterios de ordenacioacuten

FORMATO

El establecido en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

23

CUADRO PARA LA EVALUACIOacuteN DE MOTORES DE BUacuteSQUEDA

Recogida de

informacioacuten

Buacutesqueda y Recuperacioacuten de Informacioacuten

Resultados

Formularios

Herramientas de buacutesqueda

Clasif

Campos de buacutesqueda

Format

Orden

MOTORES

Metadata No

Metadata

Simple Avanz

OR

AND

NOT

( )

ldquo ldquo

Tiacutet

URL

Desc

Keyw

Loc

Leng

Control

Vocab

Nov

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

24

152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda

PRESENTACIOacuteN

Una organizacioacuten ha destinado una partida presupuestaria para aumentar la

presencia web del ayuntamiento e implementar servicios y productos de

informacioacuten interactivos para los ciudadanos

Los departamentos de Informaacutetica Documentacioacuten y Comunicacioacuten estaacuten

colaborando en el proceso de compra de nuevo software que permita implementar

estas prestaciones y sea compatible con el back-office de la organizacioacuten

En la proacutexima reunioacuten se va a decidir queacute software para la implementacioacuten de un

motor de buacutesqueda en la Intranet y sitio web del ayuntamiento se va a adquirir

OBJETIVOS

Conocer las caracteriacutesticas de los principales software del mercado para la

implentacioacuten de tecnologiacutea pull para la recuperacioacuten de la informacioacuten

Presentar una aplicacioacuten praacutectica de la gestioacuten del conocimiento

(recuperacioacuten) en un entorno web

Evaluar un paquete de software con relacioacuten a unos criterios teacutecnicos y

metodoloacutegicos preestablecidos

ENUNCIADO

El estudiante es la persona que representa al Departamento de Documentacioacuten en

esta reunioacuten y debes presentar tu propuesta del paquetes de software que maacutes se

adapta a los requerimientos de la organizacioacuten

Los requerimientos establecidos en la reunioacuten anterior son

Software compatible con el Sistema de Informacioacuten del ayuntamiento

Oracle portal sobre UNIX Bases de datos Access y SQL Server JSP y

Dreamweaver Ultradev

Software compatible con cualquier plataforma web Intranet sitio web CD-

ROM DVD

Indexacioacuten de materiales diversos HTML XML asp php pdf doc etc

Entorno usable y familiar para el usuario interno y externo

Opciones de buacutesqueda avanzada operadores booleanos truncamiento

limitaciones de campo y otros

Indexacioacuten de paacuteginas HTML y de texto en varios idiomas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

25

FORMATO

El formato debe centildeirse a los siguientes apartados

1 Metodologiacutea de la evaluacioacuten [el estudiante debe enunciar las fuentes

consultadas y el conjunto de los paquetes de software analizados]

2 Evaluacioacuten del software [el estudiante debe recopilar la siguiente informacioacuten

del paquetes de software seleccionados]

Nombre del SW

Precio

Requerimientos que cumple

Compatibilidad con el sistema de informacioacuten

Compatibilidad con diferentes plataformas web

Indexacioacuten de materiales diversos

Usabilidad del entorno

Opciones de buacutesqueda

Idiomas

3 Propuesta del Departamento de Documentacioacuten[el estudiante debe comentar

algunos puntos a favor yo en contra del software propuesto como opcioacuten 1]

RECURSOS

Sullivan Danny Search Engine Software for your web site

SearchEngineWatchcom Sept 16 2002 (Consultado el 23-05-2006)

httpsearchenginewatchcomresourcessoftwarehtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

26

16 Anexo Introduccioacuten a Google

Presentacioacuten

Internet es una extensa red de documentos de muacuteltiples formatos desde paacuteginas

web en html a documentos de distintos tipos como puedan ser textos imaacutegenes

archivos de sonido o de viacutedeo etc Cuando necesitas buscar cierta informacioacuten en

Internet lo maacutes eficaz es utilizar un buscador ya que estas herramientas disponen

de robots que rastrean la web en busca de informacioacuten e indexan los documentos

seguacuten sus formatos y contenidos de tal forma que muestran a sus usuarios los

documentos relevantes con los criterios de buacutesqueda elegidos

Conocer adecuadamente las propiedades y herramientas de cada buscador nos

puede ayudar a restringir las buacutesquedas a lo que realmente es relevante para

nosotros sin embargo generalmente estos criterios son desconocidos por el

internauta medio ya que se basan en criterios documentales

Google es el buscador maacutes famoso y utilizado realizar una buacutesqueda bien acotada

es necesario incluir el maacuteximo de palabras relevantes para el usuario prestando

especial atencioacuten a los diferentes significados de una palabra Google determina los

resultados por las coincidencias y cercaniacutea de las palabras entre siacute Google tampoco

distingue entre mayuacutesculas y minuacutesculas ni acentos Entrecomillar frases obliga al

buscador a encontrar paacuteginas que tengan esa frase completa

Buacutesqueda sencilla

httpwwwgoogleesintleshelpbasicshtml

iquestQueacute operador booleano utilizan por defecto las buacutesquedas sencillas Pon un

ejemplo

iquestGoogle permite la utilizacioacuten de comodines () para limitar la buacutesqueda Pon un

ejemplo

iquestGoogle diferencia los acentos y las mayuacutesculas y minuacutesculas Pon un ejemplo

Restricciones en la buacutesqueda

httpwwwgoogleesintleshelprefinesearchhtml

iquestCoacutemo se excluye una palabra de una estrategia de buacutesqueda Por ejemplo de la

buacutesqueda [biblioteca arte moderno] queacute debo hacer para excluir la palabra

moderno

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

iquestQueacute debo hacer para buscar una frase por ejemplo [gran hermano]

iquestCoacutemo puedo buscar noticias sobre la guerra de Irak soacutelo en el sitio web del

Elmundoes Especifica la estrategia de buacutesqueda

Buacutesqueda avanzada

httpwwwgoogleesadvanced_searchhl=es

Los buscadores de internet han superado ampliamente las claacutesicas posibilidades de

filtrado de preguntas basadas en el aacutelgebra booleana (operadores Y NO O en

ingleacutes AND OR y NOT) Por ejemplo google descarta por defecto el operador

booleano OR (historia O roma) asumiendo que su base de datos es tan grande

que o intenta ser muy especiacutefico o el resultado obtenido en una consulta de este

tipo tendraacute demasiado ruido esto saldraacuten demasiadas respuestas Aun asiacute nos

permite utilizarlo a voluntad en su buacutesqueda avanzada

Asiacute google busca por defecto con el operador AND (historia Y roma) y es maacutes

aplica por defecto un operador NEAR decreciente NEAR busca paacuteginas en las que

aparezca historia y tambieacuten roma con una o maacutes palabras de separacioacuten entre

ambos conceptos El nuacutemero de palabras se regula por 123 etc copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

27

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 4: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

4

22 Criterios baacutesicos para el posicionamiento 31

221 Criterios de optimizacioacuten internos a la paacutegina web 32

222 Criterios de optimizacioacuten externos a la paacutegina web 34

23 Los metadatos y el posicionamiento web 35

231 Concepto de metadatos 35

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten 37

2321 La iniciativa Dublin Core 38

2322 Los elementos Dublin Core 38

24 La optimizacioacuten de las palabras clave 39

25 La planificacioacuten de un proyecto de posicionamiento 41

251 Plan de posicionamiento 41

252 Alta en los principales buscadores 41

253 Enlaces patrocinados 42

254 Servicios de consultoriacutea 43

26 Bibliografiacutea 44

27 Caso praacutectico Plan de posicionamiento web 45

3 Los agentes inteligentes de informacioacuten 50

31 Concepto de agente inteligente 50

32 Caracteriacutesticas de los agentes 51

33 Aplicaciones de los agentes 51

34 Clasificacioacuten de los agentes inteligentes 53

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten 54

36 Bibliografiacutea 55

37 Caso praacutectico Comparacioacuten Google versus Copernic 58

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

5

Introduccioacuten

Los mayores motores de buacutesqueda apenas cubren un 20-25 del web mientras

que los principales iacutendices es dudoso que lleguen a un 5 La desventaja de este

ingente volumen de informacioacuten es que por razones de celeridad en la respuesta

obliga a limitar las prestaciones de buacutesqueda de forma que suelen faltar ciertas

capacidades avanzadas Otros problemas importantes derivan de la diferente

cobertura de la red (las sedes comerciales y de los paiacuteses desarrollados estaacuten mejor

indizadas) el elevado porcentaje de enlaces no activos y la desactualizacioacuten de los

recursos debido a frecuencia de revisioacuten muy baja o inadecuada

Las herramientas de motor de buacutesqueda estaacuten instaladas en el ordenador remoto y

por tanto limitadas por restricciones generalmente ajenas al usuario final Una

nueva generacioacuten de herramientas y la adopcioacuten de nuevas estrategias pueden

ayudar significativamente asiacute como el reconocimiento de nuevas realidades y el

descubrimiento de fuentes ocultas de datos relevantes hasta la fecha

frecuentemente infrautilizados

Las herramientas de segunda generacioacuten instaladas en el ordenador cliente son

capaces de tratar con grandes voluacutemenes de informacioacuten automatizando tareas

que incrementan la productividad final de los recursos recuperados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

6

1 Los motores de buacutesqueda y la recuperacioacuten de la

informacioacuten

La recuperacioacuten de la informacioacuten (RI) es una operacioacuten en la que se interpreta una

necesidad de informacioacuten de un usuario y se seleccionan los documentos maacutes

relevantes capaces de solucionarla En el contexto de Internet se puede definir el

objetivo de la recuperacioacuten como la identificacioacuten de una o maacutes referencias de

paacuteginas web que resulten relevantes para satisfacer una necesidad de informacioacuten

11 El lenguaje de interrogacioacuten

Un lenguaje de interrogacioacuten es el conjunto de opciones (oacuterdenes operadores y

estructuras) que organizados seguacuten normas loacutegicas permiten la consulta de los

recursos de informacioacuten mediante una expresioacuten llamada ecuacioacuten de buacutesqueda

Las oacuterdenes son aquellas palabras o abreviaturas que indican al sistema las

acciones a ejecutar (buscara la expresioacuten mostrar los registros resultantes

de una buacutesqueda ejecutar un perfil de usuario)

Los operadores son los encargados de expresar las relaciones que

mantienen entre siacute los teacuterminos que pueden definir las necesidades

informativas del usuario

Si bien inicialmente las ecuaciones de buacutesqueda se formulaban mediante la

formulacioacuten textual de expresiones la implantacioacuten de interfaces graacuteficas a partir

de los antildeos 80 llevoacute al uso de nuevos entornos de seleccioacuten donde el usuario soacutelo

debe introducir los teacuterminos y guiarse por un sistema de botones y menuacutes

desplegables

111 Operadores loacutegicos o booleanos

Llamados asiacute en honor a George Boole matemaacutetico del siglo XIX que fue el

precursor de la loacutegica simboacutelica y el aacutelgebra de Boole (teoriacutea de conjuntos) es uno

de los meacutetodos maacutes extendidos de especificar las buacutesquedas en la mayoriacutea de

sistemas Se basan en tres operaciones loacutegicas baacutesicas

Interseccioacuten de conjuntos AND Y Operador que indica que deben estar

incluidos en los resultados de la buacutesqueda los teacuterminos unidos por esta

partiacutecula Es un operador restrictivo puesto que elimina aquellos

documentos en los que no aparecen todos los teacuterminos de la expresioacuten de

buacutesqueda

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Ejemplo bullseye AND copernic indica que deben aparecer en el documento

las dos palabras si no es asiacute se excluiraacute el documento

Unioacuten o suma de conjuntos OR O Indica que cualquiera de las palabras

que esteacuten unidos por este operador debe aparecer en el documento las

restantes no tienen que estar presentes Es un operador de ampliacioacuten pues

soacutelo deberaacute aparecer uno o alguno de los teacuterminos de la expresioacuten de

buacutesqueda

Ejemplo bullseye OR copernic puede aparecer en el documento la palabra

bullseye o copernic o ambas

Exclusioacuten de conjuntos NO AND NOT Operador que excluye de un

documento la palabra no deseada Es un operador de restriccioacuten pues se

seleccionan aquellos documentos que contienen el primer teacutermino de

buacutesqueda pero no el segundo

Ejemplo Knowbots AND NOT copernic recupera todos los documentos que

contengan la palabra Knowbots pero que no contengan la palabra copernic

En la elaboracioacuten de una ecuacioacuten de buacutesqueda es habitual la combinacioacuten de maacutes

de uno de estos operadores por lo que seraacute necesario conocer en profundidad el

sistema para saber las prioridades a la hora de su ejecucioacuten puesto que los copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

7

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

8

resultados pueden variar sustancialmente A menudo estas prioridades vienen

marcadas por el uso de pareacutentesis de manera que se ejecuta en primer lugar el

operador que une los teacuterminos que estaacuten entre pareacutentesis

Ejemplo (bullseye OR copernic OR lexibot) AND (agentes inteligentes)

recupera los documentos que contengan los terminos agentes inteligentes y

copernic o bullseye o lexibot

112 Operadores posicionales

Los operadores posicionales toman como partida la posicioacuten del teacutermino en

relacioacuten a su contexto es decir en relacioacuten a los otros teacuterminos y al documento

Estos operadores se pueden dividir en dos tipos los relativos y los absolutos

1121 Operadores posicionales relativos

A menudo llamados operadores de adyacencia o proximidad Permiten definir al

sistema de buacutesqueda la distancia que puede existir entre un teacutermino y otro Se

pueden buscar teacuterminos que esteacuten juntas separadas por varias palabras o

caracteres que se encuentren en una misma frase o un mismo paacuterrafo e incluso

si se debe o no respetar el orden de los teacuterminos Existe una gran variedad de

operadores de adyacencia y expresan diferentes situaciones seguacuten los sistemas

NEAR operador que obliga a estar a un nuacutemero determinado de distancia

las palabras claves a recuperar Este nuacutemero variacutea en funcioacuten de los

diferentes programas de recuperacioacuten de la informacioacuten asiacute por ejemplo

mientras en Altavista significa un maacuteximo de 10 palabras entre los

teacuterminos en WebCrawler significa un maacuteximo de 2 palabras

Ejemplo bullseye NEAR copernic recupera textos con frases como

ldquobullseye es mejor que copernicrdquo o ldquocopernic tiene maacutes motores que

bullseyerdquo

NEARN realiza la misma operacioacuten que NEAR pero N es sustituido por la

distancia en palabras que deben estar separados los teacuterminos de

buacutesqueda

Ejemplo bullseye NEAR5 copernic recupera todos los documentos que

aparezcan los dos terminos y cuya separacioacuten no sea mayor a cinco

palabras

Otra posibilidad es hacer una buacutesqueda de una frase exacta Consiste en la

interseccioacuten de las palabras de buacutesqueda que ademaacutes estaacuten adyacentes y en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

9

el orden en que se describen

ldquo rdquo emplear las comillas expresa que debe aparecer la frase exacta y en el

mismo orden

Ejemplo ldquocomparacioacuten de agentes inteligentesrdquo tiene que aparecer esta frase

en los documentos para que sean recuperados

1122 Operadores posicionales absolutos

Se trata de operadores que permiten buscar el o los teacuterminos en un lugar

determinado del documento En general son operadores delimitadores de un

campo

Link recupera todos los links que contenga el teacutermino buscado

Ejemplo Linkldquoagentes inteligentesrdquo recupera todos los links que contenga la

frase exacta agentes inteligentes

Title recupera en los tiacutetulos de web correos etc la palabras deseadas

Ejemplo Titleldquoagentes inteligentesrdquo recupera uacutenicamente del tiacutetulo la frase

exacta

Url busca url que contengan los teacuterminos de la ecuacioacuten de buacutesqueda

Ejemplo Urlldquougresrdquo presenta todos las paacuteginas web de la Universidad de

Granada

Body recupera del cuerpo del documento el conjunto de palabras deseadas

Ejemplo Bodyldquoagentes inteligentesrdquo recupera del cuerpo del documento

uacutenicamente la frase exacta de la ecuacioacuten de buacutesqueda

113 Operadores de truncamiento y de liacutemitecomparacioacuten

Operadores de comparacioacuten o de rango Limitan la buacutesqueda mediante una

expresioacuten que establece un rango de valores especialmente numeacutericos

Corresponden a formas tipo ldquoigual querdquo(simbolizado por = EQ) ldquomayor

querdquo (simbolizado por gt GT) ldquomenor querdquo( simbolizado por lt LT) o

operadores de inteacutervalos (simbolizado por un guioacuten to gtlt)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

10

Operadores de truncamiento o maacutescaras Los truncamientos ayudan a

buscar todas las posibilidades semaacutenticas de un teacutermino por ejemplo sus

derivados fijados por prefjiacioacuten o sufijacioacuten las variantes leacutexicas Asiacute los

llamados caracteres comodiacuten como el asterisco () o la interrogacioacuten ()

sustituyen un caraacutecter o un conjunto de caracteres

Ejemplo document recupera todas las palabras que contengan esta raiz

por ejemplo documento documentos documentalista documentado etc

12 Las herramientas de recuperacioacuten de informacioacuten web

En Espantildea existen diferentes imprecisiones terminoloacutegicas a este respecto Por un

lado a los motores de buacutesqueda se les ha denominado con otros teacuterminos

sinoacutenimos tales como buscadores rastreadores webcrawlers agentes iacutendices

directorios Por otro durante cierto tiempo se han confundido tres tecnologiacuteas que

ahora tienen autonomiacutea propia los iacutendices temaacuteticosdirectorios los motores de

buacutesqueda y los agentes inteligentes

En principio la diferencia entre motor de buacutesqueda e iacutendice temaacutetico o directorio

parece clara Un iacutendice temaacutetico es una paacutegina web (sitio web) en donde las

distintas materias se encuentran organizadas en torno a un conjunto de epiacutegrafes

Esta diferencia se tambalea cuando nos encontramos con iacutendices temaacuteticos como

Yahoo (wwwyahoocom) que presenta un interfaz similar a los motores e incluso

permite realizar buacutesquedas sobre los recursos que tiene sistematizados En general

la diferencia radica en el hecho de que los iacutendices temaacuteticos contienen direcciones

que son recopiladas organizadas y clasificadas manualmente y la buacutesqueda se lleva

a cabo exclusivamente sobre los recursos indexados del directorio

Los agentes inteligentes pueden realizar una serie de tareas sin que los humanos u

otros agentes les tengan que decir queacute hacer a cada paso que dan en su camino

Se diferencian de los motores de buacutesqueda en que eacutestos albergan contenidos

estaacuteticos (aunque se actualizan con cierta frecuencia) y responden directamente a

las peticiones de los usuarios Si un motor de buacutesqueda pudiera almacenar

peticiones de los usuarios y notificarles la llegada de informacioacuten uacutetil entonces el

motor de buacutesqueda seriacutea un agente Sin embargo la diferenciacioacuten no es

radicalmente clara puesto que se denominan agentes inteligentes a softwares que

realmente no lo son

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

11

121 Tipos de herramientas de buacutesqueda y recuperacioacuten

A continuacioacuten se presenta una definicioacuten estaacutendar de cada una de las herramientas

de buacutesqueda y recuperacioacuten de informacioacuten mencionadas anteriormente

1211 Los directorios o iacutendices temaacuteticos

Los directorios o iacutendices presentan una seleccioacuten de recursos webs organizados

siguiendo una estructura o clasificacioacuten jeraacuterquica de materias que va de categoriacuteas

maacutes amplias a categoriacuteas maacutes especiacuteficas Los directorios se exploran mediante la

navegacioacuten (browsing) de una base de datos de documentos web compilados

recogidos y organizados manualmente por expertos (ayudados por robots de

localizacioacuten automaacutetica de recursos en la red) La buacutesqueda jeraacuterquica sirve al

usuario de guiacutea permitiendo acceder a la informacioacuten en el contexto temaacutetico al

que pertenece y en relacioacuten a otras aacutereas temaacuteticas

Los directorios tambieacuten presentan un motor de buacutesqueda interno para localizar

directamente recursos de la base de datos mediante diferentes ecuaciones de

buacutesqueda y palabras clave obviando de esta manera el uso del directorio temaacutetico

Los sistemas de buacutesqueda por palabras pueden actuar de dos maneras

Sobre la clasificacioacuten en una seccioacuten de ella (cuando por ejemplo

sabemos en queacute parte del directorio podemos localizar la informacioacuten

que nos interesa)

Sobre las paacuteginas pero en este caso se limitan a la informacioacuten

recopilada por el iacutendice (fundamentalmente sitios web no paacuteginas)

Asiacute pues la buacutesqueda de informacioacuten en los directorios puede hacerse bien de

forma guiada mediante clasificaciones jeraacuterquicas bien a partir de teacuterminos

especiacuteficos

Los directorios maacutes comunes son aquellos que ofrecen una navegacioacuten por temas

y con una cobertura generalista como por ejemplo Yahoo (Yet Another

Hierarchical Officious Oracle) Sin embargo tambieacuten existen directorios que

permiten por ejemplo una navegacioacuten geograacutefica (Virtual Tourist

httpwwwvirtualtouristcom ) o directorios especializados

Los servicios de consulta basados en directorios han ido incorporando prestaciones

y han evolucionado hacia lo que actualmente se llaman portales un conjunto de

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

12

servicios que pretende satisfacer todas las necesidades de los usuarios de Internet

(cuentas de correo electroacutenico chat paacuteginas amarillas y blancas informacioacuten

metereoloacutegica y de la bolsa servicio de noticias)

1212 Los motores de buacutesqueda

Los motores de buacutesqueda o buscadores tienen sus antecedentes en los simples

listados de direcciones de recursos y documentos de la red y son la respuesta al

raacutepido volumen de crecimiento dela red que supera la capacidad de los recursos

humanos de los directorios ndash que por ello suelen ser selectivos - Los buscadores

son bases de datos creadas por indizacioacuten automaacutetica del texto completo de las

paacuteginas web y realizada por un programa llamado robot Este robot loacutegico o

arantildea (spider) explora de forma automaacutetica los servidores extrayendo las palabras

maacutes significativas de cada paacutegina y creando un iacutendice de buacutesqueda Aun cuando

los programas lleguen a ser similares no existen dos programas de buacutesqueda

exactamente similares en teacuterminos de tamantildeo velocidad y contenido no existen

dos motores de buacutesqueda que utilicen coincidentemente el mismo listado de

relevancia y tampoco cada motor de buacutesqueda ofrece las mismas opciones de

buacutesqueda Por lo tanto su buacutesqueda resultaraacute diferente en cada motor utilizado La

diferencia podriacutea no ser mucha pero siacute significativa

Existe una gran porcioacuten de la red que las ldquoarantildeasrdquo de los buscadores no pueden o

no alcanzan a indizar Se las nombra como la Red Invisible o la Red profunda e

incluye entre otras cosas sitios protegidos por contrasentildeas documentos detraacutes de

ldquocortinas de fuegordquo material archivado herramientas interactivas y los contenidos

de ciertas bases de datos

Los servicios de consulta basados en directorios y motores de buacutesqueda han ido

incorporando prestaciones y han evolucionado hacia lo que actualmente se llaman

portales un conjunto de servicios que pretende satisfacer todas las necesidades de

los usuarios de Internet (cuentas de correo electroacutenico chat paacuteginas amarillas y

blancas informacioacuten metereoloacutegica y de la bolsa servicio de noticias)

1213 Los agentes inteligentes

Un agente es una entidad autoacutenoma capaz de almacenar conocimiento sobre siacute

misma y sobre su entorno con unos objetivos y capacidad Asimismo 8n agente

inteligente es un programa que basaacutendose en su propio conocimiento realiza un

conjunto de operaciones para satisfacer las necesidades de un usuario o de otro

programa bien por iniciativa propia o porque alguno de estos se lo requiere

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

13

Seguacuten las leyes de la inteligencia artificial debe de tener las siguientes

caracteriacutesticas

Autonomiacutea Debe actuar sin ninguacuten tipo de intervencioacuten humana directa

y tener control sobre sus propios actos

Sociabilidad Comunicatividad Debe de ser capaz de comunicarse

mediante un lenguaje comuacuten con otros agentes e incluso con los

humanos

Capacidad de reaccioacuten Percibe su entorno y reaccionar para adaptarse a

eacutel (por ejemplo ante una palabra mal escrita determinar queacute es a traveacutes

del contexto)

Iniciativa Emprende las acciones necesarias para resolver un problema

Tipologiacuteas de herramientas de segunda generacioacuten (agentes inteligentes)

Clientes z3950 Permiten la consulta simultaacutenea de un elevado nuacutemero de

servidores mediante un uacutenico protocolo es decir un uacutenico interfaz y

lenguaje de interrogacioacuten Es especialmente uacutetil en recuperar la informacioacuten

que se encuentra en la llamada ldquoInternet invisiblerdquo informacioacuten que no es

indizada por los motores de buacutesqueda ndash por ejemplo las bases de datos -

Volcadores Permiten volcar automaacuteticamente una copia ideacutentica de sedes

directorios y documentos manteniendo su estructura y sus elementos ndash

incluso los enlaces - y creando asiacute un archivo offline Se puede programar

la hora del volcado reduciendo considerablemente el tiempo y el coste y

permite activar el vuelco de diferentes tipos especiales de documentos (

html doc pdf gif )

Mutibuscadores o metabuscadores Permiten realizar la recuperacioacuten de la

informacioacuten en varios motores de buacutesqueda simultaacuteneamente A diferencia

de los multibuscadores de primera generacioacuten la mayoriacutea de las tareas

pueden automatizarse y son muy flexibles en su configuracioacuten traducen

expresiones en lenguaje natural enviacutean los perfiles a varios motores de

buacutesqueda y procesan los resultados eliminando los duplicados y ordenando

los contenidos seguacuten criterios y formatos definibles

Trazadores Permiten la buacutesqueda en las paacuteginas enlazadas desde una

paacutegina web determinada o desde una lista de resultados de un buscador

Desde esta primera sede llamada ldquosemillardquo y aprovechando la naturaleza

hipertextual de Internet van comprobaacutendose las paacuteginas que se encuentran

enlazadas seguacuten una serie de criterios de pertinencia y asiacute sucesivamente

hasta un nivel prefijado Aunque generan mucho ruido y es una teacutecnica

lenta permite recuperar informacioacuten que es imposible de localizar para los

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

14

buscadores

Indizadores Permiten indizar y resumir automaacuteticamente diferentes paacuteginas

web y exportar los resultados en diferentes formatos reutilizables por

editores web

Mapeadores Describen iacutentegramente una sede detallando cada fichero y

directorio y proporcionando un mapa de contenidos Permiten obtener

datos numeacutericos que ayudan a evaluar dichos contenidos y establecer una

comparativa entre diferentes sedes web ndash en base a valores como el

tamantildeo la densidad hipermedia de la sede su estructura de niveles la

tipologiacutea de enlaces etc

122 Funcionamiento de los motores de buacutesqueda

Un motor de buacutesqueda estaacute formado por cuatro elementos baacutesicos

1 Un programa (tambieacuten denominado robot rastreador o webcrawler) que recorre

el WWW buscando recursos de informacioacuten y sus respectivas URLs

2 Un sistema automaacutetico de anaacutelisis de contenidos e indexacioacuten de los

documentos localizados por el robot

3 Un sistema de interrogacioacuten generalmente basado en la loacutegica booleana que

permite al usuario expresar su necesidad de informacioacuten

4 Un programa que actuacutea de pasarela entre el servidor de documentos html y la

base de datos

Funcionamiento el motor de buacutesqueda recibe la consulta del usuario (query)

formada por uno o maacutes teacuterminos realiza una consulta interna en la base de datos

que contiene los recursos web indexados y ofrece una lista de aquellos recursos que

cumplen una parte o el total de los requisitos establecidos en la consulta

Generalmente los resultados aparecen ordenados seguacuten una puntuacioacuten (score)

que el programa asocia automaacuteticamente a cada recurso

Para realizar una consulta es necesario tener en cuenta un conjunto de variables

1 Lenguaje de interrogacioacuten que debe ofrecer diferentes tipos de operadores

loacutegicos de comparacioacuten de truncamiento de proximidad de especificacioacuten de

campo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

15

2 Posibilidad de refinar (refine) una buacutesqueda inicial

3 Campos limitadores que nos permitan reducir la buacutesqueda dominios lenguas

paiacuteses fecha de creacioacuten del recurso

4 Buacutesquedas alternativas buacutesqueda simple buacutesqueda avanzada buacutesquedas

combinando operadores e iacutendices temaacuteticos etc

5 Opciones avanzadas buscar diferentes recursos (texto sonido imagen)

guardar y reutilizar buacutesquedas diferentes formatos en los resultados de

buacutesqueda (estaacutendard detallado compacto etc) buacutesqueda de conceptos

relacionados (related topics) consulta directa en bases de datos (infranets)

etc

123 Los metabuscadores

La gran cantidad de informacioacuten y el notable aumento de motores de buacutesqueda

accesibles desemboca en la necesidad de realizar consultas simultaacuteneas en

diferentes motores de buacutesqueda y con una sola estrategia (query) De esta

necesidad surgen los denominados ldquometabuscadoresrdquo que ofrecen nuevas

prestaciones y mejores y maacutes exhaustivos resultados de buacutesqueda

Los metabuscadores permiten automatizar el proceso de realizar una misma

consulta en diversos motores de buacutesqueda lo cual no significa que sea totalmente

exhaustivo puesto que el metabuscador enviacutea la consulta solamente a aquellos

motores de buacutesqueda con los que ha establecido un acuerdo previo

En el funcionamiento de los metabuscadores cabe destacar algunas variables

interesantes Por una lado la exhaustividad no estaacute garantizada (desde el

momento en el que sabemos que un motor de buacutesqueda es capaz de indexar a lo

sumo un 30 de los recursos web disponibles) Por otro los tiempos de respuesta

pueden ser mucho maacutes largos dada la necesidad de realizar muacuteltiples buacutesquedas

simultaacuteneas (Metacrawler permite delimitar el tiempo maacuteximo de espera de 1 a 10

minutos) ademaacutes la recuperacioacuten de recursos duplicados suele ser muy elevada

por ello algunos metabuscadores ya han implementado la utilidad que permite

eliminar los duplicados

124 Tendencia actual de los motores de buacutesqueda

Partiendo de los problemas actuales que presentan los motores de buacutesqueda en

cuanto a su funcionamiento y los resultados ofrecidos se pueden adelantar algunas

viacuteas de solucioacuten futura que marcan la tendencia en la evolucioacuten de los motores de

buacutesqueda

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

16

Los resultados de la buacutesqueda pueden ser satisfactorios o no tanto Los motores de

buacutesqueda ofrecen resultados muy diferentes ante una misma cuestioacuten inicial este

hecho demuestra la poca exhaustividad de los motores en la indexacioacuten de los

recursos web y pone de manifiesto los problemas derivados de la escasez de control

linguumliacutestico

Actualmente se aboga por la incorporacioacuten de herramientas de anaacutelisis linguumliacutestico y

control terminoloacutegico en los motores de buacutesqueda de forma que sea posible

efectuar una recuperacioacuten menos ligada a la comparacioacuten de cadenas de caracteres

y maacutes vinculada a la comparacioacuten de conceptos

La escasa calidad de la informacioacuten recuperada es otro inconveniente de los

actuales motores de buacutesqueda Los mecanismos para aumentar la precisioacuten en la

buacutesqueda (refinamientos buacutesquedas avanzadas acotacioacuten por dominios etc) a

veces no funcionan como cabriacutea esperar A ello hay que antildeadir el miacutenimo valor de

algunos de los sitios web recuperados el porcentaje de recursos repetidos y el

porcentaje de recursos inactivos (que ya no existen fiacutesicamente en la red aunque

continuacutean indexados)

En este sentido se empieza a hablar de una Internet para el gran puacuteblico y una

Internet de los recursos culturales cientiacuteficos y teacutecnicos La especializacioacuten de los

motores de buacutesqueda es una buena viacutea para conseguir mejores servicios de

informacioacuten la especializacioacuten conduce a la concentracioacuten del conocimiento en

ciertos lugares donde los usuarios pueden encontrar faacutecilmente los recursos

relacionados con su aacutembito de conocimiento

13 La Infranet o Internet invisible

La infranet o Internet invisible es el conjunto de recursos accesibles uacutenicamente a

traveacutes de alguacuten tipo de pasarela o formulario web y que por tanto no pueden ser

indizados de forma estructural por los robots de los motores de buacutesqueda

Muchos de estos recursos son de gran calidad y desde el punto de vista del gestor

de informacioacuten tienen una importancia clave en la recuperacioacuten de informacioacuten de

alto valor antildeadido Su invisibilidad para los motores de buacutesqueda implica una

dificultad considerable para la recuperacioacuten efectiva de estos recursos y requiere

aproximaciones novedosas por parte de los profesionales

131 Los recursos de la Internet invisible

La propia heterogeneidad formal de la informacioacuten en Internet puede plantear

dificultades a la hora de entender queacute recursos estaacuten incluido bajo la denominacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

17

de Internet Invisible Con el fin de clarificar queacute contenidos pueden resultar

invisibles se ha considerado una clasificacioacuten que atiende a criterios documentales

Bases de datos bibliograacuteficas se incluyen en este grupo los cataacutelogos de

biblioteca accesibles a traveacutes de una pasarela (OPAC) web otras bases de datos de

referencias bibliograacuteficas (de acceso puacuteblico o restringido ndashregistro previo gratuito o

de pago-) y entidades similares tales como los cataacutelogos de libreriacuteas (ej

Amazoncom)

Bases de datos alfanumeacutericas definidas por exclusioacuten del grupo anterior son

todas las bases de datos que no tienen caraacutecter bibliograacutefico Comprenderiacutea

ademaacutes los recursos llamados de referencia que requiren alguacuten tipo de pasarela de

acceso para su consulta (ej Encyclopaedia Britannica)

Una situacioacuten ligeramente distinta es la planteada por las paacuteginas generadas

dinaacutemicamente (asp jsp php o similares) Dichas paacuteginas soacutelo existen en virtud de

una consulta puntual imposible de realizar por los robots de los motores de

buacutesqueda y cuyo contenido puede alcanzar un considerable grado de

personalizacioacuten Desde un punto de vista documental los contenidos que explotan

estaacuten en una base de datos y por tanto se consideran dentro de esta categoriacutea

Archivos y revistas electroacutenicas se trata de bases de datos que incluyen

documentos a texto completo y que soacutelo se pueden recuperar previa identificacioacuten

de la referencia labor para la que se requiere utilizar una pasarela web simple

(formulario de consulta) o doble (palabra de acceso y formulario de consulta)

Ficheros no HTML o textuales el (relativo) fracaso de HTML original a la hora de

generar paacuteginas con una maquetacioacuten muy rica ha permitido que algunos formatos

de disentildeo maacutes elaborado hayan adquirido popularidad en la web (pdf ps ppt doc)

Estos formatos no textuales no son indizados correctamente por los robots de los

motores de buacutesqueda (excepcioacuten Googlecom ya indiza documentos pdf y los

convierte en HTML) y por tanto constituyen una parte del webespacio invisible que

ha ido adquiriendo cada vez maacutes importancia

132 La recuperacioacuten de la informacioacuten en la Internet invisible

La recuperacioacuten de la informacioacuten en la Internet invisible se apoya

fundamentalmente en la disponibilidad de directorios e iacutendices que identifiquen y

organicen su principales recursos El maacutes importante en el mercado espantildeol es la

sede espantildeola de Internet Invisible httpwwwinternetinvisiblecom

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

18

Las herramientas maacutes importantes para la recuperacioacuten de estos recursos de

informacioacuten invisibles son

Clientes Z3950 La progresiva adopcioacuten del protocolo Z3950 por la mayoriacutea de

las bibliotecas estaacute incrementando el valor de los clientes Z3950 que ya pueden

acceder a una masa criacutetica de recursos

Bookwhere 2000 Sea Change (wwwbookwherecom)

EzCat BookSystems (wwwbooksyscomezcat)

ZNavigator EnWare (wwwenwarees)

ZSearch Infoworks Technology (wwwitcompanycom)

ZPista Ifgenia Plus (wwwifigeniaeszeta)

Agentes inteligentes estos programas se han convertido en herramientas muy

populares en Internet que permiten superar algunos de los problemas

tradicionalmente asociados a los motores de buacutesqueda No todos los agentes

ofrecen acceso a recursos de la Internet invisible e incluso aquellos que asiacute lo hacen

lo presentan como opciones avanzadas normalmente no disponibles en las

versiones ldquosharewarerdquo

BullsEye Intelliseek (wwwintelliseekcom)

Copernic Copernic (wwwcoperniccom)

EZSearch American Systems (wwwamericansyscom)

LexiBot BrightPlanet (wwwlexibotcom)

WebSeeker Blue Squirrel (wwwbluesquirrelcom)

14 Bibliografiacutea

Aguillo Cantildeo Isidro (1999) Del multibuscador al metabuscador las agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

19

trazadores de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten

y la organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada p239-245

Aguillo Cantildeo Isidro (2001) Internet invisible o Infranet definicioacuten clasificacioacuten y

evaluacioacuten En Maldonado Martiacutenez Angeles La informacioacuten especializada en

Internet Madrid CSIC p 161-178

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I Information

World en Espantildeol vol 6 nordm 5 p 22-26

Codina Lluis (2003) Internet invisible y web semaacutentica iquestel futuro de los sistemas

de informacioacuten en liacutenea Revista tradumaacutetica nordm 2 2003

Cornella Alfons (2001) Mensaje 364 de Extra-Net la revista de infonomiacutea La

infranet iquestdoacutende esta el valor

Fernaacutendez de las Heras Joseacute Manuel Diacuteaz de Cerio Pako (2000) La Intranet del

conocimiento IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del

Conocimiento retos y soluciones de los profesionales de la informacioacuten Bilbao 19-

20-21 octubre 2000 p 567-574

Goacutemez Diacuteaz Raquel (2003) La evaluacioacuten en recuperacioacuten de la informacioacutenraquo

Hipertextnet nordm 1 (mayo 2003) httpwwwhipertextnetwebpag238htm

Marcos Mora Mariacutea del Carmen (2005) Elementos visuales en sistemas de

buacutesqueda y recuperacioacuten de la informacioacuten Hipertextnet nordm 3 (mayo 2005)

httpwwwhipertextnetwebpag257htm

Martiacutenez Francisco J Rodriacuteguez Muntildeoz Joseacute Vicente (2004) Reflexiones sobre la

evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesidad utilidad y

viabilidad Anales de documentacioacuten nuacutem 7 (2004) p 153-170

httpwwwumesfccdanalesad07ad0710pdf

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada 1999)

La representacioacuten y la organizacioacuten del conocimiento en sus distintas perspectivas

su influencia en la recuperacioacuten de informacioacuten Granada Isko Universidad de

Granada p 247-248

Vaquero JR (1997) Motores de buacutesqueda Information World en Espantildeol vol 6

nordm 7-8 p 31-32

Vidal Bordeacutes Francisco Javier Salvador Olivaacuten Joseacute Antonio (2000) La

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

20

implementacioacuten de metadatos y Dublin Core en sedes y paacuteginas web de bibliotecas

y centros de documentacioacuten de universidades y centros de investigacioacuten de la Red

IRIS IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del Conocimiento

retos y soluciones de los profesionales de la informacioacuten Bilbao 19-20-21 octubre

2000 p 197-210

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

21

15 Casos praacutecticos

151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda

PRESENTACIOacuteN

La recuperacioacuten del conocimiento mediante la utilizacioacuten de motores de buacutesqueda

es muy heterogeacutenea Cada motor indexa y recupera de una forma diferente Por

tanto es importante tener unos paraacutemetros para poder evaluar queacute motores de

buacutesqueda son los maacutes adecuados ante una necesidad de informacioacuten

OBJETIVOS

Conocer el funcionamiento de los motores de buacutesqueda

Utilizar una metodologiacutea para la evaluacioacuten de motores de buacutesqueda

ENUNCIADO

El estudiante deberaacute evaluar 3 motores de buacutesqueda de aacutembito internacional para

ello usaraacute una estrategia de buacutesqueda que aplicaraacute en los 3 motores

preseleccionados de forma que puedan apreciarse claramente las diferencias entre

eacutestos

Motores de buacutesqueda Googlecom Yahoocom Altavistacom

Estrategia de buacutesqueda digital libraries

Las caracteriacutesticas que pueden presentar los diferentes motores de buacutesqueda se

van a agrupar en tres apartados recogida de la informacioacuten buacutesqueda y

recuperacioacuten de la informacioacuten y presentacioacuten de los resultados

Recogida de informacioacuten En este apartado hay que determinar si el robot

es capaz de identificar las etiquetas ldquoMETArdquo de los documentos HTML y

extraer informacioacuten de las mismas para ser usada en la buacutesqueda o

presentacioacuten de resultados

Buacutesqueda Las caracteriacutesticas baacutesicas que un motor de buacutesqueda debe

cumplir desde el punto de vista de la recuperacioacuten de la informacioacuten son las

siguientes

o Formularios de buacutesqueda posibilidad de elegir entre simple o

avanzado

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

22

o Herramientas de buacutesqueda posibilidad de utilizar operadores

booleanos (AND OR NOT) pareacutentesis comillas para los teacuterminos

compuestos o frases y finalmente posibilidad de truncado en

palabras derivadas

o Clasificacioacuten temaacutetica existencia de un iacutendice general para aquellos

que no saben concretar su tema de buacutesqueda

o Campos de buacutesqueda posibilidad de limitar la buacutesqueda a campos

determinados tales como Tiacutetulo URL Descripcioacuten Palabras Clave

Localizacioacuten e Idioma

o Control del vocabulario descubrir si el motor dispone de alguna

herramienta para eliminar sinonimias y polisemias etc

o Deteccioacuten de novedades posibilidad de diferenciar los nuevos

recursos incorporados

Resultados Hay que tener en cuenta si el motor de buacutesqueda permite

elegir entre diferentes formatos de presentacioacuten de los resultados asiacute como

diversos criterios de ordenacioacuten

FORMATO

El establecido en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

23

CUADRO PARA LA EVALUACIOacuteN DE MOTORES DE BUacuteSQUEDA

Recogida de

informacioacuten

Buacutesqueda y Recuperacioacuten de Informacioacuten

Resultados

Formularios

Herramientas de buacutesqueda

Clasif

Campos de buacutesqueda

Format

Orden

MOTORES

Metadata No

Metadata

Simple Avanz

OR

AND

NOT

( )

ldquo ldquo

Tiacutet

URL

Desc

Keyw

Loc

Leng

Control

Vocab

Nov

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

24

152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda

PRESENTACIOacuteN

Una organizacioacuten ha destinado una partida presupuestaria para aumentar la

presencia web del ayuntamiento e implementar servicios y productos de

informacioacuten interactivos para los ciudadanos

Los departamentos de Informaacutetica Documentacioacuten y Comunicacioacuten estaacuten

colaborando en el proceso de compra de nuevo software que permita implementar

estas prestaciones y sea compatible con el back-office de la organizacioacuten

En la proacutexima reunioacuten se va a decidir queacute software para la implementacioacuten de un

motor de buacutesqueda en la Intranet y sitio web del ayuntamiento se va a adquirir

OBJETIVOS

Conocer las caracteriacutesticas de los principales software del mercado para la

implentacioacuten de tecnologiacutea pull para la recuperacioacuten de la informacioacuten

Presentar una aplicacioacuten praacutectica de la gestioacuten del conocimiento

(recuperacioacuten) en un entorno web

Evaluar un paquete de software con relacioacuten a unos criterios teacutecnicos y

metodoloacutegicos preestablecidos

ENUNCIADO

El estudiante es la persona que representa al Departamento de Documentacioacuten en

esta reunioacuten y debes presentar tu propuesta del paquetes de software que maacutes se

adapta a los requerimientos de la organizacioacuten

Los requerimientos establecidos en la reunioacuten anterior son

Software compatible con el Sistema de Informacioacuten del ayuntamiento

Oracle portal sobre UNIX Bases de datos Access y SQL Server JSP y

Dreamweaver Ultradev

Software compatible con cualquier plataforma web Intranet sitio web CD-

ROM DVD

Indexacioacuten de materiales diversos HTML XML asp php pdf doc etc

Entorno usable y familiar para el usuario interno y externo

Opciones de buacutesqueda avanzada operadores booleanos truncamiento

limitaciones de campo y otros

Indexacioacuten de paacuteginas HTML y de texto en varios idiomas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

25

FORMATO

El formato debe centildeirse a los siguientes apartados

1 Metodologiacutea de la evaluacioacuten [el estudiante debe enunciar las fuentes

consultadas y el conjunto de los paquetes de software analizados]

2 Evaluacioacuten del software [el estudiante debe recopilar la siguiente informacioacuten

del paquetes de software seleccionados]

Nombre del SW

Precio

Requerimientos que cumple

Compatibilidad con el sistema de informacioacuten

Compatibilidad con diferentes plataformas web

Indexacioacuten de materiales diversos

Usabilidad del entorno

Opciones de buacutesqueda

Idiomas

3 Propuesta del Departamento de Documentacioacuten[el estudiante debe comentar

algunos puntos a favor yo en contra del software propuesto como opcioacuten 1]

RECURSOS

Sullivan Danny Search Engine Software for your web site

SearchEngineWatchcom Sept 16 2002 (Consultado el 23-05-2006)

httpsearchenginewatchcomresourcessoftwarehtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

26

16 Anexo Introduccioacuten a Google

Presentacioacuten

Internet es una extensa red de documentos de muacuteltiples formatos desde paacuteginas

web en html a documentos de distintos tipos como puedan ser textos imaacutegenes

archivos de sonido o de viacutedeo etc Cuando necesitas buscar cierta informacioacuten en

Internet lo maacutes eficaz es utilizar un buscador ya que estas herramientas disponen

de robots que rastrean la web en busca de informacioacuten e indexan los documentos

seguacuten sus formatos y contenidos de tal forma que muestran a sus usuarios los

documentos relevantes con los criterios de buacutesqueda elegidos

Conocer adecuadamente las propiedades y herramientas de cada buscador nos

puede ayudar a restringir las buacutesquedas a lo que realmente es relevante para

nosotros sin embargo generalmente estos criterios son desconocidos por el

internauta medio ya que se basan en criterios documentales

Google es el buscador maacutes famoso y utilizado realizar una buacutesqueda bien acotada

es necesario incluir el maacuteximo de palabras relevantes para el usuario prestando

especial atencioacuten a los diferentes significados de una palabra Google determina los

resultados por las coincidencias y cercaniacutea de las palabras entre siacute Google tampoco

distingue entre mayuacutesculas y minuacutesculas ni acentos Entrecomillar frases obliga al

buscador a encontrar paacuteginas que tengan esa frase completa

Buacutesqueda sencilla

httpwwwgoogleesintleshelpbasicshtml

iquestQueacute operador booleano utilizan por defecto las buacutesquedas sencillas Pon un

ejemplo

iquestGoogle permite la utilizacioacuten de comodines () para limitar la buacutesqueda Pon un

ejemplo

iquestGoogle diferencia los acentos y las mayuacutesculas y minuacutesculas Pon un ejemplo

Restricciones en la buacutesqueda

httpwwwgoogleesintleshelprefinesearchhtml

iquestCoacutemo se excluye una palabra de una estrategia de buacutesqueda Por ejemplo de la

buacutesqueda [biblioteca arte moderno] queacute debo hacer para excluir la palabra

moderno

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

iquestQueacute debo hacer para buscar una frase por ejemplo [gran hermano]

iquestCoacutemo puedo buscar noticias sobre la guerra de Irak soacutelo en el sitio web del

Elmundoes Especifica la estrategia de buacutesqueda

Buacutesqueda avanzada

httpwwwgoogleesadvanced_searchhl=es

Los buscadores de internet han superado ampliamente las claacutesicas posibilidades de

filtrado de preguntas basadas en el aacutelgebra booleana (operadores Y NO O en

ingleacutes AND OR y NOT) Por ejemplo google descarta por defecto el operador

booleano OR (historia O roma) asumiendo que su base de datos es tan grande

que o intenta ser muy especiacutefico o el resultado obtenido en una consulta de este

tipo tendraacute demasiado ruido esto saldraacuten demasiadas respuestas Aun asiacute nos

permite utilizarlo a voluntad en su buacutesqueda avanzada

Asiacute google busca por defecto con el operador AND (historia Y roma) y es maacutes

aplica por defecto un operador NEAR decreciente NEAR busca paacuteginas en las que

aparezca historia y tambieacuten roma con una o maacutes palabras de separacioacuten entre

ambos conceptos El nuacutemero de palabras se regula por 123 etc copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

27

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 5: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

5

Introduccioacuten

Los mayores motores de buacutesqueda apenas cubren un 20-25 del web mientras

que los principales iacutendices es dudoso que lleguen a un 5 La desventaja de este

ingente volumen de informacioacuten es que por razones de celeridad en la respuesta

obliga a limitar las prestaciones de buacutesqueda de forma que suelen faltar ciertas

capacidades avanzadas Otros problemas importantes derivan de la diferente

cobertura de la red (las sedes comerciales y de los paiacuteses desarrollados estaacuten mejor

indizadas) el elevado porcentaje de enlaces no activos y la desactualizacioacuten de los

recursos debido a frecuencia de revisioacuten muy baja o inadecuada

Las herramientas de motor de buacutesqueda estaacuten instaladas en el ordenador remoto y

por tanto limitadas por restricciones generalmente ajenas al usuario final Una

nueva generacioacuten de herramientas y la adopcioacuten de nuevas estrategias pueden

ayudar significativamente asiacute como el reconocimiento de nuevas realidades y el

descubrimiento de fuentes ocultas de datos relevantes hasta la fecha

frecuentemente infrautilizados

Las herramientas de segunda generacioacuten instaladas en el ordenador cliente son

capaces de tratar con grandes voluacutemenes de informacioacuten automatizando tareas

que incrementan la productividad final de los recursos recuperados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

6

1 Los motores de buacutesqueda y la recuperacioacuten de la

informacioacuten

La recuperacioacuten de la informacioacuten (RI) es una operacioacuten en la que se interpreta una

necesidad de informacioacuten de un usuario y se seleccionan los documentos maacutes

relevantes capaces de solucionarla En el contexto de Internet se puede definir el

objetivo de la recuperacioacuten como la identificacioacuten de una o maacutes referencias de

paacuteginas web que resulten relevantes para satisfacer una necesidad de informacioacuten

11 El lenguaje de interrogacioacuten

Un lenguaje de interrogacioacuten es el conjunto de opciones (oacuterdenes operadores y

estructuras) que organizados seguacuten normas loacutegicas permiten la consulta de los

recursos de informacioacuten mediante una expresioacuten llamada ecuacioacuten de buacutesqueda

Las oacuterdenes son aquellas palabras o abreviaturas que indican al sistema las

acciones a ejecutar (buscara la expresioacuten mostrar los registros resultantes

de una buacutesqueda ejecutar un perfil de usuario)

Los operadores son los encargados de expresar las relaciones que

mantienen entre siacute los teacuterminos que pueden definir las necesidades

informativas del usuario

Si bien inicialmente las ecuaciones de buacutesqueda se formulaban mediante la

formulacioacuten textual de expresiones la implantacioacuten de interfaces graacuteficas a partir

de los antildeos 80 llevoacute al uso de nuevos entornos de seleccioacuten donde el usuario soacutelo

debe introducir los teacuterminos y guiarse por un sistema de botones y menuacutes

desplegables

111 Operadores loacutegicos o booleanos

Llamados asiacute en honor a George Boole matemaacutetico del siglo XIX que fue el

precursor de la loacutegica simboacutelica y el aacutelgebra de Boole (teoriacutea de conjuntos) es uno

de los meacutetodos maacutes extendidos de especificar las buacutesquedas en la mayoriacutea de

sistemas Se basan en tres operaciones loacutegicas baacutesicas

Interseccioacuten de conjuntos AND Y Operador que indica que deben estar

incluidos en los resultados de la buacutesqueda los teacuterminos unidos por esta

partiacutecula Es un operador restrictivo puesto que elimina aquellos

documentos en los que no aparecen todos los teacuterminos de la expresioacuten de

buacutesqueda

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Ejemplo bullseye AND copernic indica que deben aparecer en el documento

las dos palabras si no es asiacute se excluiraacute el documento

Unioacuten o suma de conjuntos OR O Indica que cualquiera de las palabras

que esteacuten unidos por este operador debe aparecer en el documento las

restantes no tienen que estar presentes Es un operador de ampliacioacuten pues

soacutelo deberaacute aparecer uno o alguno de los teacuterminos de la expresioacuten de

buacutesqueda

Ejemplo bullseye OR copernic puede aparecer en el documento la palabra

bullseye o copernic o ambas

Exclusioacuten de conjuntos NO AND NOT Operador que excluye de un

documento la palabra no deseada Es un operador de restriccioacuten pues se

seleccionan aquellos documentos que contienen el primer teacutermino de

buacutesqueda pero no el segundo

Ejemplo Knowbots AND NOT copernic recupera todos los documentos que

contengan la palabra Knowbots pero que no contengan la palabra copernic

En la elaboracioacuten de una ecuacioacuten de buacutesqueda es habitual la combinacioacuten de maacutes

de uno de estos operadores por lo que seraacute necesario conocer en profundidad el

sistema para saber las prioridades a la hora de su ejecucioacuten puesto que los copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

7

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

8

resultados pueden variar sustancialmente A menudo estas prioridades vienen

marcadas por el uso de pareacutentesis de manera que se ejecuta en primer lugar el

operador que une los teacuterminos que estaacuten entre pareacutentesis

Ejemplo (bullseye OR copernic OR lexibot) AND (agentes inteligentes)

recupera los documentos que contengan los terminos agentes inteligentes y

copernic o bullseye o lexibot

112 Operadores posicionales

Los operadores posicionales toman como partida la posicioacuten del teacutermino en

relacioacuten a su contexto es decir en relacioacuten a los otros teacuterminos y al documento

Estos operadores se pueden dividir en dos tipos los relativos y los absolutos

1121 Operadores posicionales relativos

A menudo llamados operadores de adyacencia o proximidad Permiten definir al

sistema de buacutesqueda la distancia que puede existir entre un teacutermino y otro Se

pueden buscar teacuterminos que esteacuten juntas separadas por varias palabras o

caracteres que se encuentren en una misma frase o un mismo paacuterrafo e incluso

si se debe o no respetar el orden de los teacuterminos Existe una gran variedad de

operadores de adyacencia y expresan diferentes situaciones seguacuten los sistemas

NEAR operador que obliga a estar a un nuacutemero determinado de distancia

las palabras claves a recuperar Este nuacutemero variacutea en funcioacuten de los

diferentes programas de recuperacioacuten de la informacioacuten asiacute por ejemplo

mientras en Altavista significa un maacuteximo de 10 palabras entre los

teacuterminos en WebCrawler significa un maacuteximo de 2 palabras

Ejemplo bullseye NEAR copernic recupera textos con frases como

ldquobullseye es mejor que copernicrdquo o ldquocopernic tiene maacutes motores que

bullseyerdquo

NEARN realiza la misma operacioacuten que NEAR pero N es sustituido por la

distancia en palabras que deben estar separados los teacuterminos de

buacutesqueda

Ejemplo bullseye NEAR5 copernic recupera todos los documentos que

aparezcan los dos terminos y cuya separacioacuten no sea mayor a cinco

palabras

Otra posibilidad es hacer una buacutesqueda de una frase exacta Consiste en la

interseccioacuten de las palabras de buacutesqueda que ademaacutes estaacuten adyacentes y en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

9

el orden en que se describen

ldquo rdquo emplear las comillas expresa que debe aparecer la frase exacta y en el

mismo orden

Ejemplo ldquocomparacioacuten de agentes inteligentesrdquo tiene que aparecer esta frase

en los documentos para que sean recuperados

1122 Operadores posicionales absolutos

Se trata de operadores que permiten buscar el o los teacuterminos en un lugar

determinado del documento En general son operadores delimitadores de un

campo

Link recupera todos los links que contenga el teacutermino buscado

Ejemplo Linkldquoagentes inteligentesrdquo recupera todos los links que contenga la

frase exacta agentes inteligentes

Title recupera en los tiacutetulos de web correos etc la palabras deseadas

Ejemplo Titleldquoagentes inteligentesrdquo recupera uacutenicamente del tiacutetulo la frase

exacta

Url busca url que contengan los teacuterminos de la ecuacioacuten de buacutesqueda

Ejemplo Urlldquougresrdquo presenta todos las paacuteginas web de la Universidad de

Granada

Body recupera del cuerpo del documento el conjunto de palabras deseadas

Ejemplo Bodyldquoagentes inteligentesrdquo recupera del cuerpo del documento

uacutenicamente la frase exacta de la ecuacioacuten de buacutesqueda

113 Operadores de truncamiento y de liacutemitecomparacioacuten

Operadores de comparacioacuten o de rango Limitan la buacutesqueda mediante una

expresioacuten que establece un rango de valores especialmente numeacutericos

Corresponden a formas tipo ldquoigual querdquo(simbolizado por = EQ) ldquomayor

querdquo (simbolizado por gt GT) ldquomenor querdquo( simbolizado por lt LT) o

operadores de inteacutervalos (simbolizado por un guioacuten to gtlt)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

10

Operadores de truncamiento o maacutescaras Los truncamientos ayudan a

buscar todas las posibilidades semaacutenticas de un teacutermino por ejemplo sus

derivados fijados por prefjiacioacuten o sufijacioacuten las variantes leacutexicas Asiacute los

llamados caracteres comodiacuten como el asterisco () o la interrogacioacuten ()

sustituyen un caraacutecter o un conjunto de caracteres

Ejemplo document recupera todas las palabras que contengan esta raiz

por ejemplo documento documentos documentalista documentado etc

12 Las herramientas de recuperacioacuten de informacioacuten web

En Espantildea existen diferentes imprecisiones terminoloacutegicas a este respecto Por un

lado a los motores de buacutesqueda se les ha denominado con otros teacuterminos

sinoacutenimos tales como buscadores rastreadores webcrawlers agentes iacutendices

directorios Por otro durante cierto tiempo se han confundido tres tecnologiacuteas que

ahora tienen autonomiacutea propia los iacutendices temaacuteticosdirectorios los motores de

buacutesqueda y los agentes inteligentes

En principio la diferencia entre motor de buacutesqueda e iacutendice temaacutetico o directorio

parece clara Un iacutendice temaacutetico es una paacutegina web (sitio web) en donde las

distintas materias se encuentran organizadas en torno a un conjunto de epiacutegrafes

Esta diferencia se tambalea cuando nos encontramos con iacutendices temaacuteticos como

Yahoo (wwwyahoocom) que presenta un interfaz similar a los motores e incluso

permite realizar buacutesquedas sobre los recursos que tiene sistematizados En general

la diferencia radica en el hecho de que los iacutendices temaacuteticos contienen direcciones

que son recopiladas organizadas y clasificadas manualmente y la buacutesqueda se lleva

a cabo exclusivamente sobre los recursos indexados del directorio

Los agentes inteligentes pueden realizar una serie de tareas sin que los humanos u

otros agentes les tengan que decir queacute hacer a cada paso que dan en su camino

Se diferencian de los motores de buacutesqueda en que eacutestos albergan contenidos

estaacuteticos (aunque se actualizan con cierta frecuencia) y responden directamente a

las peticiones de los usuarios Si un motor de buacutesqueda pudiera almacenar

peticiones de los usuarios y notificarles la llegada de informacioacuten uacutetil entonces el

motor de buacutesqueda seriacutea un agente Sin embargo la diferenciacioacuten no es

radicalmente clara puesto que se denominan agentes inteligentes a softwares que

realmente no lo son

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

11

121 Tipos de herramientas de buacutesqueda y recuperacioacuten

A continuacioacuten se presenta una definicioacuten estaacutendar de cada una de las herramientas

de buacutesqueda y recuperacioacuten de informacioacuten mencionadas anteriormente

1211 Los directorios o iacutendices temaacuteticos

Los directorios o iacutendices presentan una seleccioacuten de recursos webs organizados

siguiendo una estructura o clasificacioacuten jeraacuterquica de materias que va de categoriacuteas

maacutes amplias a categoriacuteas maacutes especiacuteficas Los directorios se exploran mediante la

navegacioacuten (browsing) de una base de datos de documentos web compilados

recogidos y organizados manualmente por expertos (ayudados por robots de

localizacioacuten automaacutetica de recursos en la red) La buacutesqueda jeraacuterquica sirve al

usuario de guiacutea permitiendo acceder a la informacioacuten en el contexto temaacutetico al

que pertenece y en relacioacuten a otras aacutereas temaacuteticas

Los directorios tambieacuten presentan un motor de buacutesqueda interno para localizar

directamente recursos de la base de datos mediante diferentes ecuaciones de

buacutesqueda y palabras clave obviando de esta manera el uso del directorio temaacutetico

Los sistemas de buacutesqueda por palabras pueden actuar de dos maneras

Sobre la clasificacioacuten en una seccioacuten de ella (cuando por ejemplo

sabemos en queacute parte del directorio podemos localizar la informacioacuten

que nos interesa)

Sobre las paacuteginas pero en este caso se limitan a la informacioacuten

recopilada por el iacutendice (fundamentalmente sitios web no paacuteginas)

Asiacute pues la buacutesqueda de informacioacuten en los directorios puede hacerse bien de

forma guiada mediante clasificaciones jeraacuterquicas bien a partir de teacuterminos

especiacuteficos

Los directorios maacutes comunes son aquellos que ofrecen una navegacioacuten por temas

y con una cobertura generalista como por ejemplo Yahoo (Yet Another

Hierarchical Officious Oracle) Sin embargo tambieacuten existen directorios que

permiten por ejemplo una navegacioacuten geograacutefica (Virtual Tourist

httpwwwvirtualtouristcom ) o directorios especializados

Los servicios de consulta basados en directorios han ido incorporando prestaciones

y han evolucionado hacia lo que actualmente se llaman portales un conjunto de

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

12

servicios que pretende satisfacer todas las necesidades de los usuarios de Internet

(cuentas de correo electroacutenico chat paacuteginas amarillas y blancas informacioacuten

metereoloacutegica y de la bolsa servicio de noticias)

1212 Los motores de buacutesqueda

Los motores de buacutesqueda o buscadores tienen sus antecedentes en los simples

listados de direcciones de recursos y documentos de la red y son la respuesta al

raacutepido volumen de crecimiento dela red que supera la capacidad de los recursos

humanos de los directorios ndash que por ello suelen ser selectivos - Los buscadores

son bases de datos creadas por indizacioacuten automaacutetica del texto completo de las

paacuteginas web y realizada por un programa llamado robot Este robot loacutegico o

arantildea (spider) explora de forma automaacutetica los servidores extrayendo las palabras

maacutes significativas de cada paacutegina y creando un iacutendice de buacutesqueda Aun cuando

los programas lleguen a ser similares no existen dos programas de buacutesqueda

exactamente similares en teacuterminos de tamantildeo velocidad y contenido no existen

dos motores de buacutesqueda que utilicen coincidentemente el mismo listado de

relevancia y tampoco cada motor de buacutesqueda ofrece las mismas opciones de

buacutesqueda Por lo tanto su buacutesqueda resultaraacute diferente en cada motor utilizado La

diferencia podriacutea no ser mucha pero siacute significativa

Existe una gran porcioacuten de la red que las ldquoarantildeasrdquo de los buscadores no pueden o

no alcanzan a indizar Se las nombra como la Red Invisible o la Red profunda e

incluye entre otras cosas sitios protegidos por contrasentildeas documentos detraacutes de

ldquocortinas de fuegordquo material archivado herramientas interactivas y los contenidos

de ciertas bases de datos

Los servicios de consulta basados en directorios y motores de buacutesqueda han ido

incorporando prestaciones y han evolucionado hacia lo que actualmente se llaman

portales un conjunto de servicios que pretende satisfacer todas las necesidades de

los usuarios de Internet (cuentas de correo electroacutenico chat paacuteginas amarillas y

blancas informacioacuten metereoloacutegica y de la bolsa servicio de noticias)

1213 Los agentes inteligentes

Un agente es una entidad autoacutenoma capaz de almacenar conocimiento sobre siacute

misma y sobre su entorno con unos objetivos y capacidad Asimismo 8n agente

inteligente es un programa que basaacutendose en su propio conocimiento realiza un

conjunto de operaciones para satisfacer las necesidades de un usuario o de otro

programa bien por iniciativa propia o porque alguno de estos se lo requiere

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

13

Seguacuten las leyes de la inteligencia artificial debe de tener las siguientes

caracteriacutesticas

Autonomiacutea Debe actuar sin ninguacuten tipo de intervencioacuten humana directa

y tener control sobre sus propios actos

Sociabilidad Comunicatividad Debe de ser capaz de comunicarse

mediante un lenguaje comuacuten con otros agentes e incluso con los

humanos

Capacidad de reaccioacuten Percibe su entorno y reaccionar para adaptarse a

eacutel (por ejemplo ante una palabra mal escrita determinar queacute es a traveacutes

del contexto)

Iniciativa Emprende las acciones necesarias para resolver un problema

Tipologiacuteas de herramientas de segunda generacioacuten (agentes inteligentes)

Clientes z3950 Permiten la consulta simultaacutenea de un elevado nuacutemero de

servidores mediante un uacutenico protocolo es decir un uacutenico interfaz y

lenguaje de interrogacioacuten Es especialmente uacutetil en recuperar la informacioacuten

que se encuentra en la llamada ldquoInternet invisiblerdquo informacioacuten que no es

indizada por los motores de buacutesqueda ndash por ejemplo las bases de datos -

Volcadores Permiten volcar automaacuteticamente una copia ideacutentica de sedes

directorios y documentos manteniendo su estructura y sus elementos ndash

incluso los enlaces - y creando asiacute un archivo offline Se puede programar

la hora del volcado reduciendo considerablemente el tiempo y el coste y

permite activar el vuelco de diferentes tipos especiales de documentos (

html doc pdf gif )

Mutibuscadores o metabuscadores Permiten realizar la recuperacioacuten de la

informacioacuten en varios motores de buacutesqueda simultaacuteneamente A diferencia

de los multibuscadores de primera generacioacuten la mayoriacutea de las tareas

pueden automatizarse y son muy flexibles en su configuracioacuten traducen

expresiones en lenguaje natural enviacutean los perfiles a varios motores de

buacutesqueda y procesan los resultados eliminando los duplicados y ordenando

los contenidos seguacuten criterios y formatos definibles

Trazadores Permiten la buacutesqueda en las paacuteginas enlazadas desde una

paacutegina web determinada o desde una lista de resultados de un buscador

Desde esta primera sede llamada ldquosemillardquo y aprovechando la naturaleza

hipertextual de Internet van comprobaacutendose las paacuteginas que se encuentran

enlazadas seguacuten una serie de criterios de pertinencia y asiacute sucesivamente

hasta un nivel prefijado Aunque generan mucho ruido y es una teacutecnica

lenta permite recuperar informacioacuten que es imposible de localizar para los

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

14

buscadores

Indizadores Permiten indizar y resumir automaacuteticamente diferentes paacuteginas

web y exportar los resultados en diferentes formatos reutilizables por

editores web

Mapeadores Describen iacutentegramente una sede detallando cada fichero y

directorio y proporcionando un mapa de contenidos Permiten obtener

datos numeacutericos que ayudan a evaluar dichos contenidos y establecer una

comparativa entre diferentes sedes web ndash en base a valores como el

tamantildeo la densidad hipermedia de la sede su estructura de niveles la

tipologiacutea de enlaces etc

122 Funcionamiento de los motores de buacutesqueda

Un motor de buacutesqueda estaacute formado por cuatro elementos baacutesicos

1 Un programa (tambieacuten denominado robot rastreador o webcrawler) que recorre

el WWW buscando recursos de informacioacuten y sus respectivas URLs

2 Un sistema automaacutetico de anaacutelisis de contenidos e indexacioacuten de los

documentos localizados por el robot

3 Un sistema de interrogacioacuten generalmente basado en la loacutegica booleana que

permite al usuario expresar su necesidad de informacioacuten

4 Un programa que actuacutea de pasarela entre el servidor de documentos html y la

base de datos

Funcionamiento el motor de buacutesqueda recibe la consulta del usuario (query)

formada por uno o maacutes teacuterminos realiza una consulta interna en la base de datos

que contiene los recursos web indexados y ofrece una lista de aquellos recursos que

cumplen una parte o el total de los requisitos establecidos en la consulta

Generalmente los resultados aparecen ordenados seguacuten una puntuacioacuten (score)

que el programa asocia automaacuteticamente a cada recurso

Para realizar una consulta es necesario tener en cuenta un conjunto de variables

1 Lenguaje de interrogacioacuten que debe ofrecer diferentes tipos de operadores

loacutegicos de comparacioacuten de truncamiento de proximidad de especificacioacuten de

campo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

15

2 Posibilidad de refinar (refine) una buacutesqueda inicial

3 Campos limitadores que nos permitan reducir la buacutesqueda dominios lenguas

paiacuteses fecha de creacioacuten del recurso

4 Buacutesquedas alternativas buacutesqueda simple buacutesqueda avanzada buacutesquedas

combinando operadores e iacutendices temaacuteticos etc

5 Opciones avanzadas buscar diferentes recursos (texto sonido imagen)

guardar y reutilizar buacutesquedas diferentes formatos en los resultados de

buacutesqueda (estaacutendard detallado compacto etc) buacutesqueda de conceptos

relacionados (related topics) consulta directa en bases de datos (infranets)

etc

123 Los metabuscadores

La gran cantidad de informacioacuten y el notable aumento de motores de buacutesqueda

accesibles desemboca en la necesidad de realizar consultas simultaacuteneas en

diferentes motores de buacutesqueda y con una sola estrategia (query) De esta

necesidad surgen los denominados ldquometabuscadoresrdquo que ofrecen nuevas

prestaciones y mejores y maacutes exhaustivos resultados de buacutesqueda

Los metabuscadores permiten automatizar el proceso de realizar una misma

consulta en diversos motores de buacutesqueda lo cual no significa que sea totalmente

exhaustivo puesto que el metabuscador enviacutea la consulta solamente a aquellos

motores de buacutesqueda con los que ha establecido un acuerdo previo

En el funcionamiento de los metabuscadores cabe destacar algunas variables

interesantes Por una lado la exhaustividad no estaacute garantizada (desde el

momento en el que sabemos que un motor de buacutesqueda es capaz de indexar a lo

sumo un 30 de los recursos web disponibles) Por otro los tiempos de respuesta

pueden ser mucho maacutes largos dada la necesidad de realizar muacuteltiples buacutesquedas

simultaacuteneas (Metacrawler permite delimitar el tiempo maacuteximo de espera de 1 a 10

minutos) ademaacutes la recuperacioacuten de recursos duplicados suele ser muy elevada

por ello algunos metabuscadores ya han implementado la utilidad que permite

eliminar los duplicados

124 Tendencia actual de los motores de buacutesqueda

Partiendo de los problemas actuales que presentan los motores de buacutesqueda en

cuanto a su funcionamiento y los resultados ofrecidos se pueden adelantar algunas

viacuteas de solucioacuten futura que marcan la tendencia en la evolucioacuten de los motores de

buacutesqueda

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

16

Los resultados de la buacutesqueda pueden ser satisfactorios o no tanto Los motores de

buacutesqueda ofrecen resultados muy diferentes ante una misma cuestioacuten inicial este

hecho demuestra la poca exhaustividad de los motores en la indexacioacuten de los

recursos web y pone de manifiesto los problemas derivados de la escasez de control

linguumliacutestico

Actualmente se aboga por la incorporacioacuten de herramientas de anaacutelisis linguumliacutestico y

control terminoloacutegico en los motores de buacutesqueda de forma que sea posible

efectuar una recuperacioacuten menos ligada a la comparacioacuten de cadenas de caracteres

y maacutes vinculada a la comparacioacuten de conceptos

La escasa calidad de la informacioacuten recuperada es otro inconveniente de los

actuales motores de buacutesqueda Los mecanismos para aumentar la precisioacuten en la

buacutesqueda (refinamientos buacutesquedas avanzadas acotacioacuten por dominios etc) a

veces no funcionan como cabriacutea esperar A ello hay que antildeadir el miacutenimo valor de

algunos de los sitios web recuperados el porcentaje de recursos repetidos y el

porcentaje de recursos inactivos (que ya no existen fiacutesicamente en la red aunque

continuacutean indexados)

En este sentido se empieza a hablar de una Internet para el gran puacuteblico y una

Internet de los recursos culturales cientiacuteficos y teacutecnicos La especializacioacuten de los

motores de buacutesqueda es una buena viacutea para conseguir mejores servicios de

informacioacuten la especializacioacuten conduce a la concentracioacuten del conocimiento en

ciertos lugares donde los usuarios pueden encontrar faacutecilmente los recursos

relacionados con su aacutembito de conocimiento

13 La Infranet o Internet invisible

La infranet o Internet invisible es el conjunto de recursos accesibles uacutenicamente a

traveacutes de alguacuten tipo de pasarela o formulario web y que por tanto no pueden ser

indizados de forma estructural por los robots de los motores de buacutesqueda

Muchos de estos recursos son de gran calidad y desde el punto de vista del gestor

de informacioacuten tienen una importancia clave en la recuperacioacuten de informacioacuten de

alto valor antildeadido Su invisibilidad para los motores de buacutesqueda implica una

dificultad considerable para la recuperacioacuten efectiva de estos recursos y requiere

aproximaciones novedosas por parte de los profesionales

131 Los recursos de la Internet invisible

La propia heterogeneidad formal de la informacioacuten en Internet puede plantear

dificultades a la hora de entender queacute recursos estaacuten incluido bajo la denominacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

17

de Internet Invisible Con el fin de clarificar queacute contenidos pueden resultar

invisibles se ha considerado una clasificacioacuten que atiende a criterios documentales

Bases de datos bibliograacuteficas se incluyen en este grupo los cataacutelogos de

biblioteca accesibles a traveacutes de una pasarela (OPAC) web otras bases de datos de

referencias bibliograacuteficas (de acceso puacuteblico o restringido ndashregistro previo gratuito o

de pago-) y entidades similares tales como los cataacutelogos de libreriacuteas (ej

Amazoncom)

Bases de datos alfanumeacutericas definidas por exclusioacuten del grupo anterior son

todas las bases de datos que no tienen caraacutecter bibliograacutefico Comprenderiacutea

ademaacutes los recursos llamados de referencia que requiren alguacuten tipo de pasarela de

acceso para su consulta (ej Encyclopaedia Britannica)

Una situacioacuten ligeramente distinta es la planteada por las paacuteginas generadas

dinaacutemicamente (asp jsp php o similares) Dichas paacuteginas soacutelo existen en virtud de

una consulta puntual imposible de realizar por los robots de los motores de

buacutesqueda y cuyo contenido puede alcanzar un considerable grado de

personalizacioacuten Desde un punto de vista documental los contenidos que explotan

estaacuten en una base de datos y por tanto se consideran dentro de esta categoriacutea

Archivos y revistas electroacutenicas se trata de bases de datos que incluyen

documentos a texto completo y que soacutelo se pueden recuperar previa identificacioacuten

de la referencia labor para la que se requiere utilizar una pasarela web simple

(formulario de consulta) o doble (palabra de acceso y formulario de consulta)

Ficheros no HTML o textuales el (relativo) fracaso de HTML original a la hora de

generar paacuteginas con una maquetacioacuten muy rica ha permitido que algunos formatos

de disentildeo maacutes elaborado hayan adquirido popularidad en la web (pdf ps ppt doc)

Estos formatos no textuales no son indizados correctamente por los robots de los

motores de buacutesqueda (excepcioacuten Googlecom ya indiza documentos pdf y los

convierte en HTML) y por tanto constituyen una parte del webespacio invisible que

ha ido adquiriendo cada vez maacutes importancia

132 La recuperacioacuten de la informacioacuten en la Internet invisible

La recuperacioacuten de la informacioacuten en la Internet invisible se apoya

fundamentalmente en la disponibilidad de directorios e iacutendices que identifiquen y

organicen su principales recursos El maacutes importante en el mercado espantildeol es la

sede espantildeola de Internet Invisible httpwwwinternetinvisiblecom

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

18

Las herramientas maacutes importantes para la recuperacioacuten de estos recursos de

informacioacuten invisibles son

Clientes Z3950 La progresiva adopcioacuten del protocolo Z3950 por la mayoriacutea de

las bibliotecas estaacute incrementando el valor de los clientes Z3950 que ya pueden

acceder a una masa criacutetica de recursos

Bookwhere 2000 Sea Change (wwwbookwherecom)

EzCat BookSystems (wwwbooksyscomezcat)

ZNavigator EnWare (wwwenwarees)

ZSearch Infoworks Technology (wwwitcompanycom)

ZPista Ifgenia Plus (wwwifigeniaeszeta)

Agentes inteligentes estos programas se han convertido en herramientas muy

populares en Internet que permiten superar algunos de los problemas

tradicionalmente asociados a los motores de buacutesqueda No todos los agentes

ofrecen acceso a recursos de la Internet invisible e incluso aquellos que asiacute lo hacen

lo presentan como opciones avanzadas normalmente no disponibles en las

versiones ldquosharewarerdquo

BullsEye Intelliseek (wwwintelliseekcom)

Copernic Copernic (wwwcoperniccom)

EZSearch American Systems (wwwamericansyscom)

LexiBot BrightPlanet (wwwlexibotcom)

WebSeeker Blue Squirrel (wwwbluesquirrelcom)

14 Bibliografiacutea

Aguillo Cantildeo Isidro (1999) Del multibuscador al metabuscador las agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

19

trazadores de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten

y la organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada p239-245

Aguillo Cantildeo Isidro (2001) Internet invisible o Infranet definicioacuten clasificacioacuten y

evaluacioacuten En Maldonado Martiacutenez Angeles La informacioacuten especializada en

Internet Madrid CSIC p 161-178

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I Information

World en Espantildeol vol 6 nordm 5 p 22-26

Codina Lluis (2003) Internet invisible y web semaacutentica iquestel futuro de los sistemas

de informacioacuten en liacutenea Revista tradumaacutetica nordm 2 2003

Cornella Alfons (2001) Mensaje 364 de Extra-Net la revista de infonomiacutea La

infranet iquestdoacutende esta el valor

Fernaacutendez de las Heras Joseacute Manuel Diacuteaz de Cerio Pako (2000) La Intranet del

conocimiento IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del

Conocimiento retos y soluciones de los profesionales de la informacioacuten Bilbao 19-

20-21 octubre 2000 p 567-574

Goacutemez Diacuteaz Raquel (2003) La evaluacioacuten en recuperacioacuten de la informacioacutenraquo

Hipertextnet nordm 1 (mayo 2003) httpwwwhipertextnetwebpag238htm

Marcos Mora Mariacutea del Carmen (2005) Elementos visuales en sistemas de

buacutesqueda y recuperacioacuten de la informacioacuten Hipertextnet nordm 3 (mayo 2005)

httpwwwhipertextnetwebpag257htm

Martiacutenez Francisco J Rodriacuteguez Muntildeoz Joseacute Vicente (2004) Reflexiones sobre la

evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesidad utilidad y

viabilidad Anales de documentacioacuten nuacutem 7 (2004) p 153-170

httpwwwumesfccdanalesad07ad0710pdf

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada 1999)

La representacioacuten y la organizacioacuten del conocimiento en sus distintas perspectivas

su influencia en la recuperacioacuten de informacioacuten Granada Isko Universidad de

Granada p 247-248

Vaquero JR (1997) Motores de buacutesqueda Information World en Espantildeol vol 6

nordm 7-8 p 31-32

Vidal Bordeacutes Francisco Javier Salvador Olivaacuten Joseacute Antonio (2000) La

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

20

implementacioacuten de metadatos y Dublin Core en sedes y paacuteginas web de bibliotecas

y centros de documentacioacuten de universidades y centros de investigacioacuten de la Red

IRIS IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del Conocimiento

retos y soluciones de los profesionales de la informacioacuten Bilbao 19-20-21 octubre

2000 p 197-210

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

21

15 Casos praacutecticos

151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda

PRESENTACIOacuteN

La recuperacioacuten del conocimiento mediante la utilizacioacuten de motores de buacutesqueda

es muy heterogeacutenea Cada motor indexa y recupera de una forma diferente Por

tanto es importante tener unos paraacutemetros para poder evaluar queacute motores de

buacutesqueda son los maacutes adecuados ante una necesidad de informacioacuten

OBJETIVOS

Conocer el funcionamiento de los motores de buacutesqueda

Utilizar una metodologiacutea para la evaluacioacuten de motores de buacutesqueda

ENUNCIADO

El estudiante deberaacute evaluar 3 motores de buacutesqueda de aacutembito internacional para

ello usaraacute una estrategia de buacutesqueda que aplicaraacute en los 3 motores

preseleccionados de forma que puedan apreciarse claramente las diferencias entre

eacutestos

Motores de buacutesqueda Googlecom Yahoocom Altavistacom

Estrategia de buacutesqueda digital libraries

Las caracteriacutesticas que pueden presentar los diferentes motores de buacutesqueda se

van a agrupar en tres apartados recogida de la informacioacuten buacutesqueda y

recuperacioacuten de la informacioacuten y presentacioacuten de los resultados

Recogida de informacioacuten En este apartado hay que determinar si el robot

es capaz de identificar las etiquetas ldquoMETArdquo de los documentos HTML y

extraer informacioacuten de las mismas para ser usada en la buacutesqueda o

presentacioacuten de resultados

Buacutesqueda Las caracteriacutesticas baacutesicas que un motor de buacutesqueda debe

cumplir desde el punto de vista de la recuperacioacuten de la informacioacuten son las

siguientes

o Formularios de buacutesqueda posibilidad de elegir entre simple o

avanzado

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

22

o Herramientas de buacutesqueda posibilidad de utilizar operadores

booleanos (AND OR NOT) pareacutentesis comillas para los teacuterminos

compuestos o frases y finalmente posibilidad de truncado en

palabras derivadas

o Clasificacioacuten temaacutetica existencia de un iacutendice general para aquellos

que no saben concretar su tema de buacutesqueda

o Campos de buacutesqueda posibilidad de limitar la buacutesqueda a campos

determinados tales como Tiacutetulo URL Descripcioacuten Palabras Clave

Localizacioacuten e Idioma

o Control del vocabulario descubrir si el motor dispone de alguna

herramienta para eliminar sinonimias y polisemias etc

o Deteccioacuten de novedades posibilidad de diferenciar los nuevos

recursos incorporados

Resultados Hay que tener en cuenta si el motor de buacutesqueda permite

elegir entre diferentes formatos de presentacioacuten de los resultados asiacute como

diversos criterios de ordenacioacuten

FORMATO

El establecido en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

23

CUADRO PARA LA EVALUACIOacuteN DE MOTORES DE BUacuteSQUEDA

Recogida de

informacioacuten

Buacutesqueda y Recuperacioacuten de Informacioacuten

Resultados

Formularios

Herramientas de buacutesqueda

Clasif

Campos de buacutesqueda

Format

Orden

MOTORES

Metadata No

Metadata

Simple Avanz

OR

AND

NOT

( )

ldquo ldquo

Tiacutet

URL

Desc

Keyw

Loc

Leng

Control

Vocab

Nov

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

24

152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda

PRESENTACIOacuteN

Una organizacioacuten ha destinado una partida presupuestaria para aumentar la

presencia web del ayuntamiento e implementar servicios y productos de

informacioacuten interactivos para los ciudadanos

Los departamentos de Informaacutetica Documentacioacuten y Comunicacioacuten estaacuten

colaborando en el proceso de compra de nuevo software que permita implementar

estas prestaciones y sea compatible con el back-office de la organizacioacuten

En la proacutexima reunioacuten se va a decidir queacute software para la implementacioacuten de un

motor de buacutesqueda en la Intranet y sitio web del ayuntamiento se va a adquirir

OBJETIVOS

Conocer las caracteriacutesticas de los principales software del mercado para la

implentacioacuten de tecnologiacutea pull para la recuperacioacuten de la informacioacuten

Presentar una aplicacioacuten praacutectica de la gestioacuten del conocimiento

(recuperacioacuten) en un entorno web

Evaluar un paquete de software con relacioacuten a unos criterios teacutecnicos y

metodoloacutegicos preestablecidos

ENUNCIADO

El estudiante es la persona que representa al Departamento de Documentacioacuten en

esta reunioacuten y debes presentar tu propuesta del paquetes de software que maacutes se

adapta a los requerimientos de la organizacioacuten

Los requerimientos establecidos en la reunioacuten anterior son

Software compatible con el Sistema de Informacioacuten del ayuntamiento

Oracle portal sobre UNIX Bases de datos Access y SQL Server JSP y

Dreamweaver Ultradev

Software compatible con cualquier plataforma web Intranet sitio web CD-

ROM DVD

Indexacioacuten de materiales diversos HTML XML asp php pdf doc etc

Entorno usable y familiar para el usuario interno y externo

Opciones de buacutesqueda avanzada operadores booleanos truncamiento

limitaciones de campo y otros

Indexacioacuten de paacuteginas HTML y de texto en varios idiomas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

25

FORMATO

El formato debe centildeirse a los siguientes apartados

1 Metodologiacutea de la evaluacioacuten [el estudiante debe enunciar las fuentes

consultadas y el conjunto de los paquetes de software analizados]

2 Evaluacioacuten del software [el estudiante debe recopilar la siguiente informacioacuten

del paquetes de software seleccionados]

Nombre del SW

Precio

Requerimientos que cumple

Compatibilidad con el sistema de informacioacuten

Compatibilidad con diferentes plataformas web

Indexacioacuten de materiales diversos

Usabilidad del entorno

Opciones de buacutesqueda

Idiomas

3 Propuesta del Departamento de Documentacioacuten[el estudiante debe comentar

algunos puntos a favor yo en contra del software propuesto como opcioacuten 1]

RECURSOS

Sullivan Danny Search Engine Software for your web site

SearchEngineWatchcom Sept 16 2002 (Consultado el 23-05-2006)

httpsearchenginewatchcomresourcessoftwarehtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

26

16 Anexo Introduccioacuten a Google

Presentacioacuten

Internet es una extensa red de documentos de muacuteltiples formatos desde paacuteginas

web en html a documentos de distintos tipos como puedan ser textos imaacutegenes

archivos de sonido o de viacutedeo etc Cuando necesitas buscar cierta informacioacuten en

Internet lo maacutes eficaz es utilizar un buscador ya que estas herramientas disponen

de robots que rastrean la web en busca de informacioacuten e indexan los documentos

seguacuten sus formatos y contenidos de tal forma que muestran a sus usuarios los

documentos relevantes con los criterios de buacutesqueda elegidos

Conocer adecuadamente las propiedades y herramientas de cada buscador nos

puede ayudar a restringir las buacutesquedas a lo que realmente es relevante para

nosotros sin embargo generalmente estos criterios son desconocidos por el

internauta medio ya que se basan en criterios documentales

Google es el buscador maacutes famoso y utilizado realizar una buacutesqueda bien acotada

es necesario incluir el maacuteximo de palabras relevantes para el usuario prestando

especial atencioacuten a los diferentes significados de una palabra Google determina los

resultados por las coincidencias y cercaniacutea de las palabras entre siacute Google tampoco

distingue entre mayuacutesculas y minuacutesculas ni acentos Entrecomillar frases obliga al

buscador a encontrar paacuteginas que tengan esa frase completa

Buacutesqueda sencilla

httpwwwgoogleesintleshelpbasicshtml

iquestQueacute operador booleano utilizan por defecto las buacutesquedas sencillas Pon un

ejemplo

iquestGoogle permite la utilizacioacuten de comodines () para limitar la buacutesqueda Pon un

ejemplo

iquestGoogle diferencia los acentos y las mayuacutesculas y minuacutesculas Pon un ejemplo

Restricciones en la buacutesqueda

httpwwwgoogleesintleshelprefinesearchhtml

iquestCoacutemo se excluye una palabra de una estrategia de buacutesqueda Por ejemplo de la

buacutesqueda [biblioteca arte moderno] queacute debo hacer para excluir la palabra

moderno

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

iquestQueacute debo hacer para buscar una frase por ejemplo [gran hermano]

iquestCoacutemo puedo buscar noticias sobre la guerra de Irak soacutelo en el sitio web del

Elmundoes Especifica la estrategia de buacutesqueda

Buacutesqueda avanzada

httpwwwgoogleesadvanced_searchhl=es

Los buscadores de internet han superado ampliamente las claacutesicas posibilidades de

filtrado de preguntas basadas en el aacutelgebra booleana (operadores Y NO O en

ingleacutes AND OR y NOT) Por ejemplo google descarta por defecto el operador

booleano OR (historia O roma) asumiendo que su base de datos es tan grande

que o intenta ser muy especiacutefico o el resultado obtenido en una consulta de este

tipo tendraacute demasiado ruido esto saldraacuten demasiadas respuestas Aun asiacute nos

permite utilizarlo a voluntad en su buacutesqueda avanzada

Asiacute google busca por defecto con el operador AND (historia Y roma) y es maacutes

aplica por defecto un operador NEAR decreciente NEAR busca paacuteginas en las que

aparezca historia y tambieacuten roma con una o maacutes palabras de separacioacuten entre

ambos conceptos El nuacutemero de palabras se regula por 123 etc copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

27

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 6: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

6

1 Los motores de buacutesqueda y la recuperacioacuten de la

informacioacuten

La recuperacioacuten de la informacioacuten (RI) es una operacioacuten en la que se interpreta una

necesidad de informacioacuten de un usuario y se seleccionan los documentos maacutes

relevantes capaces de solucionarla En el contexto de Internet se puede definir el

objetivo de la recuperacioacuten como la identificacioacuten de una o maacutes referencias de

paacuteginas web que resulten relevantes para satisfacer una necesidad de informacioacuten

11 El lenguaje de interrogacioacuten

Un lenguaje de interrogacioacuten es el conjunto de opciones (oacuterdenes operadores y

estructuras) que organizados seguacuten normas loacutegicas permiten la consulta de los

recursos de informacioacuten mediante una expresioacuten llamada ecuacioacuten de buacutesqueda

Las oacuterdenes son aquellas palabras o abreviaturas que indican al sistema las

acciones a ejecutar (buscara la expresioacuten mostrar los registros resultantes

de una buacutesqueda ejecutar un perfil de usuario)

Los operadores son los encargados de expresar las relaciones que

mantienen entre siacute los teacuterminos que pueden definir las necesidades

informativas del usuario

Si bien inicialmente las ecuaciones de buacutesqueda se formulaban mediante la

formulacioacuten textual de expresiones la implantacioacuten de interfaces graacuteficas a partir

de los antildeos 80 llevoacute al uso de nuevos entornos de seleccioacuten donde el usuario soacutelo

debe introducir los teacuterminos y guiarse por un sistema de botones y menuacutes

desplegables

111 Operadores loacutegicos o booleanos

Llamados asiacute en honor a George Boole matemaacutetico del siglo XIX que fue el

precursor de la loacutegica simboacutelica y el aacutelgebra de Boole (teoriacutea de conjuntos) es uno

de los meacutetodos maacutes extendidos de especificar las buacutesquedas en la mayoriacutea de

sistemas Se basan en tres operaciones loacutegicas baacutesicas

Interseccioacuten de conjuntos AND Y Operador que indica que deben estar

incluidos en los resultados de la buacutesqueda los teacuterminos unidos por esta

partiacutecula Es un operador restrictivo puesto que elimina aquellos

documentos en los que no aparecen todos los teacuterminos de la expresioacuten de

buacutesqueda

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Ejemplo bullseye AND copernic indica que deben aparecer en el documento

las dos palabras si no es asiacute se excluiraacute el documento

Unioacuten o suma de conjuntos OR O Indica que cualquiera de las palabras

que esteacuten unidos por este operador debe aparecer en el documento las

restantes no tienen que estar presentes Es un operador de ampliacioacuten pues

soacutelo deberaacute aparecer uno o alguno de los teacuterminos de la expresioacuten de

buacutesqueda

Ejemplo bullseye OR copernic puede aparecer en el documento la palabra

bullseye o copernic o ambas

Exclusioacuten de conjuntos NO AND NOT Operador que excluye de un

documento la palabra no deseada Es un operador de restriccioacuten pues se

seleccionan aquellos documentos que contienen el primer teacutermino de

buacutesqueda pero no el segundo

Ejemplo Knowbots AND NOT copernic recupera todos los documentos que

contengan la palabra Knowbots pero que no contengan la palabra copernic

En la elaboracioacuten de una ecuacioacuten de buacutesqueda es habitual la combinacioacuten de maacutes

de uno de estos operadores por lo que seraacute necesario conocer en profundidad el

sistema para saber las prioridades a la hora de su ejecucioacuten puesto que los copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

7

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

8

resultados pueden variar sustancialmente A menudo estas prioridades vienen

marcadas por el uso de pareacutentesis de manera que se ejecuta en primer lugar el

operador que une los teacuterminos que estaacuten entre pareacutentesis

Ejemplo (bullseye OR copernic OR lexibot) AND (agentes inteligentes)

recupera los documentos que contengan los terminos agentes inteligentes y

copernic o bullseye o lexibot

112 Operadores posicionales

Los operadores posicionales toman como partida la posicioacuten del teacutermino en

relacioacuten a su contexto es decir en relacioacuten a los otros teacuterminos y al documento

Estos operadores se pueden dividir en dos tipos los relativos y los absolutos

1121 Operadores posicionales relativos

A menudo llamados operadores de adyacencia o proximidad Permiten definir al

sistema de buacutesqueda la distancia que puede existir entre un teacutermino y otro Se

pueden buscar teacuterminos que esteacuten juntas separadas por varias palabras o

caracteres que se encuentren en una misma frase o un mismo paacuterrafo e incluso

si se debe o no respetar el orden de los teacuterminos Existe una gran variedad de

operadores de adyacencia y expresan diferentes situaciones seguacuten los sistemas

NEAR operador que obliga a estar a un nuacutemero determinado de distancia

las palabras claves a recuperar Este nuacutemero variacutea en funcioacuten de los

diferentes programas de recuperacioacuten de la informacioacuten asiacute por ejemplo

mientras en Altavista significa un maacuteximo de 10 palabras entre los

teacuterminos en WebCrawler significa un maacuteximo de 2 palabras

Ejemplo bullseye NEAR copernic recupera textos con frases como

ldquobullseye es mejor que copernicrdquo o ldquocopernic tiene maacutes motores que

bullseyerdquo

NEARN realiza la misma operacioacuten que NEAR pero N es sustituido por la

distancia en palabras que deben estar separados los teacuterminos de

buacutesqueda

Ejemplo bullseye NEAR5 copernic recupera todos los documentos que

aparezcan los dos terminos y cuya separacioacuten no sea mayor a cinco

palabras

Otra posibilidad es hacer una buacutesqueda de una frase exacta Consiste en la

interseccioacuten de las palabras de buacutesqueda que ademaacutes estaacuten adyacentes y en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

9

el orden en que se describen

ldquo rdquo emplear las comillas expresa que debe aparecer la frase exacta y en el

mismo orden

Ejemplo ldquocomparacioacuten de agentes inteligentesrdquo tiene que aparecer esta frase

en los documentos para que sean recuperados

1122 Operadores posicionales absolutos

Se trata de operadores que permiten buscar el o los teacuterminos en un lugar

determinado del documento En general son operadores delimitadores de un

campo

Link recupera todos los links que contenga el teacutermino buscado

Ejemplo Linkldquoagentes inteligentesrdquo recupera todos los links que contenga la

frase exacta agentes inteligentes

Title recupera en los tiacutetulos de web correos etc la palabras deseadas

Ejemplo Titleldquoagentes inteligentesrdquo recupera uacutenicamente del tiacutetulo la frase

exacta

Url busca url que contengan los teacuterminos de la ecuacioacuten de buacutesqueda

Ejemplo Urlldquougresrdquo presenta todos las paacuteginas web de la Universidad de

Granada

Body recupera del cuerpo del documento el conjunto de palabras deseadas

Ejemplo Bodyldquoagentes inteligentesrdquo recupera del cuerpo del documento

uacutenicamente la frase exacta de la ecuacioacuten de buacutesqueda

113 Operadores de truncamiento y de liacutemitecomparacioacuten

Operadores de comparacioacuten o de rango Limitan la buacutesqueda mediante una

expresioacuten que establece un rango de valores especialmente numeacutericos

Corresponden a formas tipo ldquoigual querdquo(simbolizado por = EQ) ldquomayor

querdquo (simbolizado por gt GT) ldquomenor querdquo( simbolizado por lt LT) o

operadores de inteacutervalos (simbolizado por un guioacuten to gtlt)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

10

Operadores de truncamiento o maacutescaras Los truncamientos ayudan a

buscar todas las posibilidades semaacutenticas de un teacutermino por ejemplo sus

derivados fijados por prefjiacioacuten o sufijacioacuten las variantes leacutexicas Asiacute los

llamados caracteres comodiacuten como el asterisco () o la interrogacioacuten ()

sustituyen un caraacutecter o un conjunto de caracteres

Ejemplo document recupera todas las palabras que contengan esta raiz

por ejemplo documento documentos documentalista documentado etc

12 Las herramientas de recuperacioacuten de informacioacuten web

En Espantildea existen diferentes imprecisiones terminoloacutegicas a este respecto Por un

lado a los motores de buacutesqueda se les ha denominado con otros teacuterminos

sinoacutenimos tales como buscadores rastreadores webcrawlers agentes iacutendices

directorios Por otro durante cierto tiempo se han confundido tres tecnologiacuteas que

ahora tienen autonomiacutea propia los iacutendices temaacuteticosdirectorios los motores de

buacutesqueda y los agentes inteligentes

En principio la diferencia entre motor de buacutesqueda e iacutendice temaacutetico o directorio

parece clara Un iacutendice temaacutetico es una paacutegina web (sitio web) en donde las

distintas materias se encuentran organizadas en torno a un conjunto de epiacutegrafes

Esta diferencia se tambalea cuando nos encontramos con iacutendices temaacuteticos como

Yahoo (wwwyahoocom) que presenta un interfaz similar a los motores e incluso

permite realizar buacutesquedas sobre los recursos que tiene sistematizados En general

la diferencia radica en el hecho de que los iacutendices temaacuteticos contienen direcciones

que son recopiladas organizadas y clasificadas manualmente y la buacutesqueda se lleva

a cabo exclusivamente sobre los recursos indexados del directorio

Los agentes inteligentes pueden realizar una serie de tareas sin que los humanos u

otros agentes les tengan que decir queacute hacer a cada paso que dan en su camino

Se diferencian de los motores de buacutesqueda en que eacutestos albergan contenidos

estaacuteticos (aunque se actualizan con cierta frecuencia) y responden directamente a

las peticiones de los usuarios Si un motor de buacutesqueda pudiera almacenar

peticiones de los usuarios y notificarles la llegada de informacioacuten uacutetil entonces el

motor de buacutesqueda seriacutea un agente Sin embargo la diferenciacioacuten no es

radicalmente clara puesto que se denominan agentes inteligentes a softwares que

realmente no lo son

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

11

121 Tipos de herramientas de buacutesqueda y recuperacioacuten

A continuacioacuten se presenta una definicioacuten estaacutendar de cada una de las herramientas

de buacutesqueda y recuperacioacuten de informacioacuten mencionadas anteriormente

1211 Los directorios o iacutendices temaacuteticos

Los directorios o iacutendices presentan una seleccioacuten de recursos webs organizados

siguiendo una estructura o clasificacioacuten jeraacuterquica de materias que va de categoriacuteas

maacutes amplias a categoriacuteas maacutes especiacuteficas Los directorios se exploran mediante la

navegacioacuten (browsing) de una base de datos de documentos web compilados

recogidos y organizados manualmente por expertos (ayudados por robots de

localizacioacuten automaacutetica de recursos en la red) La buacutesqueda jeraacuterquica sirve al

usuario de guiacutea permitiendo acceder a la informacioacuten en el contexto temaacutetico al

que pertenece y en relacioacuten a otras aacutereas temaacuteticas

Los directorios tambieacuten presentan un motor de buacutesqueda interno para localizar

directamente recursos de la base de datos mediante diferentes ecuaciones de

buacutesqueda y palabras clave obviando de esta manera el uso del directorio temaacutetico

Los sistemas de buacutesqueda por palabras pueden actuar de dos maneras

Sobre la clasificacioacuten en una seccioacuten de ella (cuando por ejemplo

sabemos en queacute parte del directorio podemos localizar la informacioacuten

que nos interesa)

Sobre las paacuteginas pero en este caso se limitan a la informacioacuten

recopilada por el iacutendice (fundamentalmente sitios web no paacuteginas)

Asiacute pues la buacutesqueda de informacioacuten en los directorios puede hacerse bien de

forma guiada mediante clasificaciones jeraacuterquicas bien a partir de teacuterminos

especiacuteficos

Los directorios maacutes comunes son aquellos que ofrecen una navegacioacuten por temas

y con una cobertura generalista como por ejemplo Yahoo (Yet Another

Hierarchical Officious Oracle) Sin embargo tambieacuten existen directorios que

permiten por ejemplo una navegacioacuten geograacutefica (Virtual Tourist

httpwwwvirtualtouristcom ) o directorios especializados

Los servicios de consulta basados en directorios han ido incorporando prestaciones

y han evolucionado hacia lo que actualmente se llaman portales un conjunto de

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

12

servicios que pretende satisfacer todas las necesidades de los usuarios de Internet

(cuentas de correo electroacutenico chat paacuteginas amarillas y blancas informacioacuten

metereoloacutegica y de la bolsa servicio de noticias)

1212 Los motores de buacutesqueda

Los motores de buacutesqueda o buscadores tienen sus antecedentes en los simples

listados de direcciones de recursos y documentos de la red y son la respuesta al

raacutepido volumen de crecimiento dela red que supera la capacidad de los recursos

humanos de los directorios ndash que por ello suelen ser selectivos - Los buscadores

son bases de datos creadas por indizacioacuten automaacutetica del texto completo de las

paacuteginas web y realizada por un programa llamado robot Este robot loacutegico o

arantildea (spider) explora de forma automaacutetica los servidores extrayendo las palabras

maacutes significativas de cada paacutegina y creando un iacutendice de buacutesqueda Aun cuando

los programas lleguen a ser similares no existen dos programas de buacutesqueda

exactamente similares en teacuterminos de tamantildeo velocidad y contenido no existen

dos motores de buacutesqueda que utilicen coincidentemente el mismo listado de

relevancia y tampoco cada motor de buacutesqueda ofrece las mismas opciones de

buacutesqueda Por lo tanto su buacutesqueda resultaraacute diferente en cada motor utilizado La

diferencia podriacutea no ser mucha pero siacute significativa

Existe una gran porcioacuten de la red que las ldquoarantildeasrdquo de los buscadores no pueden o

no alcanzan a indizar Se las nombra como la Red Invisible o la Red profunda e

incluye entre otras cosas sitios protegidos por contrasentildeas documentos detraacutes de

ldquocortinas de fuegordquo material archivado herramientas interactivas y los contenidos

de ciertas bases de datos

Los servicios de consulta basados en directorios y motores de buacutesqueda han ido

incorporando prestaciones y han evolucionado hacia lo que actualmente se llaman

portales un conjunto de servicios que pretende satisfacer todas las necesidades de

los usuarios de Internet (cuentas de correo electroacutenico chat paacuteginas amarillas y

blancas informacioacuten metereoloacutegica y de la bolsa servicio de noticias)

1213 Los agentes inteligentes

Un agente es una entidad autoacutenoma capaz de almacenar conocimiento sobre siacute

misma y sobre su entorno con unos objetivos y capacidad Asimismo 8n agente

inteligente es un programa que basaacutendose en su propio conocimiento realiza un

conjunto de operaciones para satisfacer las necesidades de un usuario o de otro

programa bien por iniciativa propia o porque alguno de estos se lo requiere

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

13

Seguacuten las leyes de la inteligencia artificial debe de tener las siguientes

caracteriacutesticas

Autonomiacutea Debe actuar sin ninguacuten tipo de intervencioacuten humana directa

y tener control sobre sus propios actos

Sociabilidad Comunicatividad Debe de ser capaz de comunicarse

mediante un lenguaje comuacuten con otros agentes e incluso con los

humanos

Capacidad de reaccioacuten Percibe su entorno y reaccionar para adaptarse a

eacutel (por ejemplo ante una palabra mal escrita determinar queacute es a traveacutes

del contexto)

Iniciativa Emprende las acciones necesarias para resolver un problema

Tipologiacuteas de herramientas de segunda generacioacuten (agentes inteligentes)

Clientes z3950 Permiten la consulta simultaacutenea de un elevado nuacutemero de

servidores mediante un uacutenico protocolo es decir un uacutenico interfaz y

lenguaje de interrogacioacuten Es especialmente uacutetil en recuperar la informacioacuten

que se encuentra en la llamada ldquoInternet invisiblerdquo informacioacuten que no es

indizada por los motores de buacutesqueda ndash por ejemplo las bases de datos -

Volcadores Permiten volcar automaacuteticamente una copia ideacutentica de sedes

directorios y documentos manteniendo su estructura y sus elementos ndash

incluso los enlaces - y creando asiacute un archivo offline Se puede programar

la hora del volcado reduciendo considerablemente el tiempo y el coste y

permite activar el vuelco de diferentes tipos especiales de documentos (

html doc pdf gif )

Mutibuscadores o metabuscadores Permiten realizar la recuperacioacuten de la

informacioacuten en varios motores de buacutesqueda simultaacuteneamente A diferencia

de los multibuscadores de primera generacioacuten la mayoriacutea de las tareas

pueden automatizarse y son muy flexibles en su configuracioacuten traducen

expresiones en lenguaje natural enviacutean los perfiles a varios motores de

buacutesqueda y procesan los resultados eliminando los duplicados y ordenando

los contenidos seguacuten criterios y formatos definibles

Trazadores Permiten la buacutesqueda en las paacuteginas enlazadas desde una

paacutegina web determinada o desde una lista de resultados de un buscador

Desde esta primera sede llamada ldquosemillardquo y aprovechando la naturaleza

hipertextual de Internet van comprobaacutendose las paacuteginas que se encuentran

enlazadas seguacuten una serie de criterios de pertinencia y asiacute sucesivamente

hasta un nivel prefijado Aunque generan mucho ruido y es una teacutecnica

lenta permite recuperar informacioacuten que es imposible de localizar para los

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

14

buscadores

Indizadores Permiten indizar y resumir automaacuteticamente diferentes paacuteginas

web y exportar los resultados en diferentes formatos reutilizables por

editores web

Mapeadores Describen iacutentegramente una sede detallando cada fichero y

directorio y proporcionando un mapa de contenidos Permiten obtener

datos numeacutericos que ayudan a evaluar dichos contenidos y establecer una

comparativa entre diferentes sedes web ndash en base a valores como el

tamantildeo la densidad hipermedia de la sede su estructura de niveles la

tipologiacutea de enlaces etc

122 Funcionamiento de los motores de buacutesqueda

Un motor de buacutesqueda estaacute formado por cuatro elementos baacutesicos

1 Un programa (tambieacuten denominado robot rastreador o webcrawler) que recorre

el WWW buscando recursos de informacioacuten y sus respectivas URLs

2 Un sistema automaacutetico de anaacutelisis de contenidos e indexacioacuten de los

documentos localizados por el robot

3 Un sistema de interrogacioacuten generalmente basado en la loacutegica booleana que

permite al usuario expresar su necesidad de informacioacuten

4 Un programa que actuacutea de pasarela entre el servidor de documentos html y la

base de datos

Funcionamiento el motor de buacutesqueda recibe la consulta del usuario (query)

formada por uno o maacutes teacuterminos realiza una consulta interna en la base de datos

que contiene los recursos web indexados y ofrece una lista de aquellos recursos que

cumplen una parte o el total de los requisitos establecidos en la consulta

Generalmente los resultados aparecen ordenados seguacuten una puntuacioacuten (score)

que el programa asocia automaacuteticamente a cada recurso

Para realizar una consulta es necesario tener en cuenta un conjunto de variables

1 Lenguaje de interrogacioacuten que debe ofrecer diferentes tipos de operadores

loacutegicos de comparacioacuten de truncamiento de proximidad de especificacioacuten de

campo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

15

2 Posibilidad de refinar (refine) una buacutesqueda inicial

3 Campos limitadores que nos permitan reducir la buacutesqueda dominios lenguas

paiacuteses fecha de creacioacuten del recurso

4 Buacutesquedas alternativas buacutesqueda simple buacutesqueda avanzada buacutesquedas

combinando operadores e iacutendices temaacuteticos etc

5 Opciones avanzadas buscar diferentes recursos (texto sonido imagen)

guardar y reutilizar buacutesquedas diferentes formatos en los resultados de

buacutesqueda (estaacutendard detallado compacto etc) buacutesqueda de conceptos

relacionados (related topics) consulta directa en bases de datos (infranets)

etc

123 Los metabuscadores

La gran cantidad de informacioacuten y el notable aumento de motores de buacutesqueda

accesibles desemboca en la necesidad de realizar consultas simultaacuteneas en

diferentes motores de buacutesqueda y con una sola estrategia (query) De esta

necesidad surgen los denominados ldquometabuscadoresrdquo que ofrecen nuevas

prestaciones y mejores y maacutes exhaustivos resultados de buacutesqueda

Los metabuscadores permiten automatizar el proceso de realizar una misma

consulta en diversos motores de buacutesqueda lo cual no significa que sea totalmente

exhaustivo puesto que el metabuscador enviacutea la consulta solamente a aquellos

motores de buacutesqueda con los que ha establecido un acuerdo previo

En el funcionamiento de los metabuscadores cabe destacar algunas variables

interesantes Por una lado la exhaustividad no estaacute garantizada (desde el

momento en el que sabemos que un motor de buacutesqueda es capaz de indexar a lo

sumo un 30 de los recursos web disponibles) Por otro los tiempos de respuesta

pueden ser mucho maacutes largos dada la necesidad de realizar muacuteltiples buacutesquedas

simultaacuteneas (Metacrawler permite delimitar el tiempo maacuteximo de espera de 1 a 10

minutos) ademaacutes la recuperacioacuten de recursos duplicados suele ser muy elevada

por ello algunos metabuscadores ya han implementado la utilidad que permite

eliminar los duplicados

124 Tendencia actual de los motores de buacutesqueda

Partiendo de los problemas actuales que presentan los motores de buacutesqueda en

cuanto a su funcionamiento y los resultados ofrecidos se pueden adelantar algunas

viacuteas de solucioacuten futura que marcan la tendencia en la evolucioacuten de los motores de

buacutesqueda

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

16

Los resultados de la buacutesqueda pueden ser satisfactorios o no tanto Los motores de

buacutesqueda ofrecen resultados muy diferentes ante una misma cuestioacuten inicial este

hecho demuestra la poca exhaustividad de los motores en la indexacioacuten de los

recursos web y pone de manifiesto los problemas derivados de la escasez de control

linguumliacutestico

Actualmente se aboga por la incorporacioacuten de herramientas de anaacutelisis linguumliacutestico y

control terminoloacutegico en los motores de buacutesqueda de forma que sea posible

efectuar una recuperacioacuten menos ligada a la comparacioacuten de cadenas de caracteres

y maacutes vinculada a la comparacioacuten de conceptos

La escasa calidad de la informacioacuten recuperada es otro inconveniente de los

actuales motores de buacutesqueda Los mecanismos para aumentar la precisioacuten en la

buacutesqueda (refinamientos buacutesquedas avanzadas acotacioacuten por dominios etc) a

veces no funcionan como cabriacutea esperar A ello hay que antildeadir el miacutenimo valor de

algunos de los sitios web recuperados el porcentaje de recursos repetidos y el

porcentaje de recursos inactivos (que ya no existen fiacutesicamente en la red aunque

continuacutean indexados)

En este sentido se empieza a hablar de una Internet para el gran puacuteblico y una

Internet de los recursos culturales cientiacuteficos y teacutecnicos La especializacioacuten de los

motores de buacutesqueda es una buena viacutea para conseguir mejores servicios de

informacioacuten la especializacioacuten conduce a la concentracioacuten del conocimiento en

ciertos lugares donde los usuarios pueden encontrar faacutecilmente los recursos

relacionados con su aacutembito de conocimiento

13 La Infranet o Internet invisible

La infranet o Internet invisible es el conjunto de recursos accesibles uacutenicamente a

traveacutes de alguacuten tipo de pasarela o formulario web y que por tanto no pueden ser

indizados de forma estructural por los robots de los motores de buacutesqueda

Muchos de estos recursos son de gran calidad y desde el punto de vista del gestor

de informacioacuten tienen una importancia clave en la recuperacioacuten de informacioacuten de

alto valor antildeadido Su invisibilidad para los motores de buacutesqueda implica una

dificultad considerable para la recuperacioacuten efectiva de estos recursos y requiere

aproximaciones novedosas por parte de los profesionales

131 Los recursos de la Internet invisible

La propia heterogeneidad formal de la informacioacuten en Internet puede plantear

dificultades a la hora de entender queacute recursos estaacuten incluido bajo la denominacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

17

de Internet Invisible Con el fin de clarificar queacute contenidos pueden resultar

invisibles se ha considerado una clasificacioacuten que atiende a criterios documentales

Bases de datos bibliograacuteficas se incluyen en este grupo los cataacutelogos de

biblioteca accesibles a traveacutes de una pasarela (OPAC) web otras bases de datos de

referencias bibliograacuteficas (de acceso puacuteblico o restringido ndashregistro previo gratuito o

de pago-) y entidades similares tales como los cataacutelogos de libreriacuteas (ej

Amazoncom)

Bases de datos alfanumeacutericas definidas por exclusioacuten del grupo anterior son

todas las bases de datos que no tienen caraacutecter bibliograacutefico Comprenderiacutea

ademaacutes los recursos llamados de referencia que requiren alguacuten tipo de pasarela de

acceso para su consulta (ej Encyclopaedia Britannica)

Una situacioacuten ligeramente distinta es la planteada por las paacuteginas generadas

dinaacutemicamente (asp jsp php o similares) Dichas paacuteginas soacutelo existen en virtud de

una consulta puntual imposible de realizar por los robots de los motores de

buacutesqueda y cuyo contenido puede alcanzar un considerable grado de

personalizacioacuten Desde un punto de vista documental los contenidos que explotan

estaacuten en una base de datos y por tanto se consideran dentro de esta categoriacutea

Archivos y revistas electroacutenicas se trata de bases de datos que incluyen

documentos a texto completo y que soacutelo se pueden recuperar previa identificacioacuten

de la referencia labor para la que se requiere utilizar una pasarela web simple

(formulario de consulta) o doble (palabra de acceso y formulario de consulta)

Ficheros no HTML o textuales el (relativo) fracaso de HTML original a la hora de

generar paacuteginas con una maquetacioacuten muy rica ha permitido que algunos formatos

de disentildeo maacutes elaborado hayan adquirido popularidad en la web (pdf ps ppt doc)

Estos formatos no textuales no son indizados correctamente por los robots de los

motores de buacutesqueda (excepcioacuten Googlecom ya indiza documentos pdf y los

convierte en HTML) y por tanto constituyen una parte del webespacio invisible que

ha ido adquiriendo cada vez maacutes importancia

132 La recuperacioacuten de la informacioacuten en la Internet invisible

La recuperacioacuten de la informacioacuten en la Internet invisible se apoya

fundamentalmente en la disponibilidad de directorios e iacutendices que identifiquen y

organicen su principales recursos El maacutes importante en el mercado espantildeol es la

sede espantildeola de Internet Invisible httpwwwinternetinvisiblecom

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

18

Las herramientas maacutes importantes para la recuperacioacuten de estos recursos de

informacioacuten invisibles son

Clientes Z3950 La progresiva adopcioacuten del protocolo Z3950 por la mayoriacutea de

las bibliotecas estaacute incrementando el valor de los clientes Z3950 que ya pueden

acceder a una masa criacutetica de recursos

Bookwhere 2000 Sea Change (wwwbookwherecom)

EzCat BookSystems (wwwbooksyscomezcat)

ZNavigator EnWare (wwwenwarees)

ZSearch Infoworks Technology (wwwitcompanycom)

ZPista Ifgenia Plus (wwwifigeniaeszeta)

Agentes inteligentes estos programas se han convertido en herramientas muy

populares en Internet que permiten superar algunos de los problemas

tradicionalmente asociados a los motores de buacutesqueda No todos los agentes

ofrecen acceso a recursos de la Internet invisible e incluso aquellos que asiacute lo hacen

lo presentan como opciones avanzadas normalmente no disponibles en las

versiones ldquosharewarerdquo

BullsEye Intelliseek (wwwintelliseekcom)

Copernic Copernic (wwwcoperniccom)

EZSearch American Systems (wwwamericansyscom)

LexiBot BrightPlanet (wwwlexibotcom)

WebSeeker Blue Squirrel (wwwbluesquirrelcom)

14 Bibliografiacutea

Aguillo Cantildeo Isidro (1999) Del multibuscador al metabuscador las agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

19

trazadores de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten

y la organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada p239-245

Aguillo Cantildeo Isidro (2001) Internet invisible o Infranet definicioacuten clasificacioacuten y

evaluacioacuten En Maldonado Martiacutenez Angeles La informacioacuten especializada en

Internet Madrid CSIC p 161-178

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I Information

World en Espantildeol vol 6 nordm 5 p 22-26

Codina Lluis (2003) Internet invisible y web semaacutentica iquestel futuro de los sistemas

de informacioacuten en liacutenea Revista tradumaacutetica nordm 2 2003

Cornella Alfons (2001) Mensaje 364 de Extra-Net la revista de infonomiacutea La

infranet iquestdoacutende esta el valor

Fernaacutendez de las Heras Joseacute Manuel Diacuteaz de Cerio Pako (2000) La Intranet del

conocimiento IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del

Conocimiento retos y soluciones de los profesionales de la informacioacuten Bilbao 19-

20-21 octubre 2000 p 567-574

Goacutemez Diacuteaz Raquel (2003) La evaluacioacuten en recuperacioacuten de la informacioacutenraquo

Hipertextnet nordm 1 (mayo 2003) httpwwwhipertextnetwebpag238htm

Marcos Mora Mariacutea del Carmen (2005) Elementos visuales en sistemas de

buacutesqueda y recuperacioacuten de la informacioacuten Hipertextnet nordm 3 (mayo 2005)

httpwwwhipertextnetwebpag257htm

Martiacutenez Francisco J Rodriacuteguez Muntildeoz Joseacute Vicente (2004) Reflexiones sobre la

evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesidad utilidad y

viabilidad Anales de documentacioacuten nuacutem 7 (2004) p 153-170

httpwwwumesfccdanalesad07ad0710pdf

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada 1999)

La representacioacuten y la organizacioacuten del conocimiento en sus distintas perspectivas

su influencia en la recuperacioacuten de informacioacuten Granada Isko Universidad de

Granada p 247-248

Vaquero JR (1997) Motores de buacutesqueda Information World en Espantildeol vol 6

nordm 7-8 p 31-32

Vidal Bordeacutes Francisco Javier Salvador Olivaacuten Joseacute Antonio (2000) La

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

20

implementacioacuten de metadatos y Dublin Core en sedes y paacuteginas web de bibliotecas

y centros de documentacioacuten de universidades y centros de investigacioacuten de la Red

IRIS IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del Conocimiento

retos y soluciones de los profesionales de la informacioacuten Bilbao 19-20-21 octubre

2000 p 197-210

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

21

15 Casos praacutecticos

151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda

PRESENTACIOacuteN

La recuperacioacuten del conocimiento mediante la utilizacioacuten de motores de buacutesqueda

es muy heterogeacutenea Cada motor indexa y recupera de una forma diferente Por

tanto es importante tener unos paraacutemetros para poder evaluar queacute motores de

buacutesqueda son los maacutes adecuados ante una necesidad de informacioacuten

OBJETIVOS

Conocer el funcionamiento de los motores de buacutesqueda

Utilizar una metodologiacutea para la evaluacioacuten de motores de buacutesqueda

ENUNCIADO

El estudiante deberaacute evaluar 3 motores de buacutesqueda de aacutembito internacional para

ello usaraacute una estrategia de buacutesqueda que aplicaraacute en los 3 motores

preseleccionados de forma que puedan apreciarse claramente las diferencias entre

eacutestos

Motores de buacutesqueda Googlecom Yahoocom Altavistacom

Estrategia de buacutesqueda digital libraries

Las caracteriacutesticas que pueden presentar los diferentes motores de buacutesqueda se

van a agrupar en tres apartados recogida de la informacioacuten buacutesqueda y

recuperacioacuten de la informacioacuten y presentacioacuten de los resultados

Recogida de informacioacuten En este apartado hay que determinar si el robot

es capaz de identificar las etiquetas ldquoMETArdquo de los documentos HTML y

extraer informacioacuten de las mismas para ser usada en la buacutesqueda o

presentacioacuten de resultados

Buacutesqueda Las caracteriacutesticas baacutesicas que un motor de buacutesqueda debe

cumplir desde el punto de vista de la recuperacioacuten de la informacioacuten son las

siguientes

o Formularios de buacutesqueda posibilidad de elegir entre simple o

avanzado

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

22

o Herramientas de buacutesqueda posibilidad de utilizar operadores

booleanos (AND OR NOT) pareacutentesis comillas para los teacuterminos

compuestos o frases y finalmente posibilidad de truncado en

palabras derivadas

o Clasificacioacuten temaacutetica existencia de un iacutendice general para aquellos

que no saben concretar su tema de buacutesqueda

o Campos de buacutesqueda posibilidad de limitar la buacutesqueda a campos

determinados tales como Tiacutetulo URL Descripcioacuten Palabras Clave

Localizacioacuten e Idioma

o Control del vocabulario descubrir si el motor dispone de alguna

herramienta para eliminar sinonimias y polisemias etc

o Deteccioacuten de novedades posibilidad de diferenciar los nuevos

recursos incorporados

Resultados Hay que tener en cuenta si el motor de buacutesqueda permite

elegir entre diferentes formatos de presentacioacuten de los resultados asiacute como

diversos criterios de ordenacioacuten

FORMATO

El establecido en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

23

CUADRO PARA LA EVALUACIOacuteN DE MOTORES DE BUacuteSQUEDA

Recogida de

informacioacuten

Buacutesqueda y Recuperacioacuten de Informacioacuten

Resultados

Formularios

Herramientas de buacutesqueda

Clasif

Campos de buacutesqueda

Format

Orden

MOTORES

Metadata No

Metadata

Simple Avanz

OR

AND

NOT

( )

ldquo ldquo

Tiacutet

URL

Desc

Keyw

Loc

Leng

Control

Vocab

Nov

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

24

152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda

PRESENTACIOacuteN

Una organizacioacuten ha destinado una partida presupuestaria para aumentar la

presencia web del ayuntamiento e implementar servicios y productos de

informacioacuten interactivos para los ciudadanos

Los departamentos de Informaacutetica Documentacioacuten y Comunicacioacuten estaacuten

colaborando en el proceso de compra de nuevo software que permita implementar

estas prestaciones y sea compatible con el back-office de la organizacioacuten

En la proacutexima reunioacuten se va a decidir queacute software para la implementacioacuten de un

motor de buacutesqueda en la Intranet y sitio web del ayuntamiento se va a adquirir

OBJETIVOS

Conocer las caracteriacutesticas de los principales software del mercado para la

implentacioacuten de tecnologiacutea pull para la recuperacioacuten de la informacioacuten

Presentar una aplicacioacuten praacutectica de la gestioacuten del conocimiento

(recuperacioacuten) en un entorno web

Evaluar un paquete de software con relacioacuten a unos criterios teacutecnicos y

metodoloacutegicos preestablecidos

ENUNCIADO

El estudiante es la persona que representa al Departamento de Documentacioacuten en

esta reunioacuten y debes presentar tu propuesta del paquetes de software que maacutes se

adapta a los requerimientos de la organizacioacuten

Los requerimientos establecidos en la reunioacuten anterior son

Software compatible con el Sistema de Informacioacuten del ayuntamiento

Oracle portal sobre UNIX Bases de datos Access y SQL Server JSP y

Dreamweaver Ultradev

Software compatible con cualquier plataforma web Intranet sitio web CD-

ROM DVD

Indexacioacuten de materiales diversos HTML XML asp php pdf doc etc

Entorno usable y familiar para el usuario interno y externo

Opciones de buacutesqueda avanzada operadores booleanos truncamiento

limitaciones de campo y otros

Indexacioacuten de paacuteginas HTML y de texto en varios idiomas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

25

FORMATO

El formato debe centildeirse a los siguientes apartados

1 Metodologiacutea de la evaluacioacuten [el estudiante debe enunciar las fuentes

consultadas y el conjunto de los paquetes de software analizados]

2 Evaluacioacuten del software [el estudiante debe recopilar la siguiente informacioacuten

del paquetes de software seleccionados]

Nombre del SW

Precio

Requerimientos que cumple

Compatibilidad con el sistema de informacioacuten

Compatibilidad con diferentes plataformas web

Indexacioacuten de materiales diversos

Usabilidad del entorno

Opciones de buacutesqueda

Idiomas

3 Propuesta del Departamento de Documentacioacuten[el estudiante debe comentar

algunos puntos a favor yo en contra del software propuesto como opcioacuten 1]

RECURSOS

Sullivan Danny Search Engine Software for your web site

SearchEngineWatchcom Sept 16 2002 (Consultado el 23-05-2006)

httpsearchenginewatchcomresourcessoftwarehtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

26

16 Anexo Introduccioacuten a Google

Presentacioacuten

Internet es una extensa red de documentos de muacuteltiples formatos desde paacuteginas

web en html a documentos de distintos tipos como puedan ser textos imaacutegenes

archivos de sonido o de viacutedeo etc Cuando necesitas buscar cierta informacioacuten en

Internet lo maacutes eficaz es utilizar un buscador ya que estas herramientas disponen

de robots que rastrean la web en busca de informacioacuten e indexan los documentos

seguacuten sus formatos y contenidos de tal forma que muestran a sus usuarios los

documentos relevantes con los criterios de buacutesqueda elegidos

Conocer adecuadamente las propiedades y herramientas de cada buscador nos

puede ayudar a restringir las buacutesquedas a lo que realmente es relevante para

nosotros sin embargo generalmente estos criterios son desconocidos por el

internauta medio ya que se basan en criterios documentales

Google es el buscador maacutes famoso y utilizado realizar una buacutesqueda bien acotada

es necesario incluir el maacuteximo de palabras relevantes para el usuario prestando

especial atencioacuten a los diferentes significados de una palabra Google determina los

resultados por las coincidencias y cercaniacutea de las palabras entre siacute Google tampoco

distingue entre mayuacutesculas y minuacutesculas ni acentos Entrecomillar frases obliga al

buscador a encontrar paacuteginas que tengan esa frase completa

Buacutesqueda sencilla

httpwwwgoogleesintleshelpbasicshtml

iquestQueacute operador booleano utilizan por defecto las buacutesquedas sencillas Pon un

ejemplo

iquestGoogle permite la utilizacioacuten de comodines () para limitar la buacutesqueda Pon un

ejemplo

iquestGoogle diferencia los acentos y las mayuacutesculas y minuacutesculas Pon un ejemplo

Restricciones en la buacutesqueda

httpwwwgoogleesintleshelprefinesearchhtml

iquestCoacutemo se excluye una palabra de una estrategia de buacutesqueda Por ejemplo de la

buacutesqueda [biblioteca arte moderno] queacute debo hacer para excluir la palabra

moderno

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

iquestQueacute debo hacer para buscar una frase por ejemplo [gran hermano]

iquestCoacutemo puedo buscar noticias sobre la guerra de Irak soacutelo en el sitio web del

Elmundoes Especifica la estrategia de buacutesqueda

Buacutesqueda avanzada

httpwwwgoogleesadvanced_searchhl=es

Los buscadores de internet han superado ampliamente las claacutesicas posibilidades de

filtrado de preguntas basadas en el aacutelgebra booleana (operadores Y NO O en

ingleacutes AND OR y NOT) Por ejemplo google descarta por defecto el operador

booleano OR (historia O roma) asumiendo que su base de datos es tan grande

que o intenta ser muy especiacutefico o el resultado obtenido en una consulta de este

tipo tendraacute demasiado ruido esto saldraacuten demasiadas respuestas Aun asiacute nos

permite utilizarlo a voluntad en su buacutesqueda avanzada

Asiacute google busca por defecto con el operador AND (historia Y roma) y es maacutes

aplica por defecto un operador NEAR decreciente NEAR busca paacuteginas en las que

aparezca historia y tambieacuten roma con una o maacutes palabras de separacioacuten entre

ambos conceptos El nuacutemero de palabras se regula por 123 etc copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

27

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 7: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Ejemplo bullseye AND copernic indica que deben aparecer en el documento

las dos palabras si no es asiacute se excluiraacute el documento

Unioacuten o suma de conjuntos OR O Indica que cualquiera de las palabras

que esteacuten unidos por este operador debe aparecer en el documento las

restantes no tienen que estar presentes Es un operador de ampliacioacuten pues

soacutelo deberaacute aparecer uno o alguno de los teacuterminos de la expresioacuten de

buacutesqueda

Ejemplo bullseye OR copernic puede aparecer en el documento la palabra

bullseye o copernic o ambas

Exclusioacuten de conjuntos NO AND NOT Operador que excluye de un

documento la palabra no deseada Es un operador de restriccioacuten pues se

seleccionan aquellos documentos que contienen el primer teacutermino de

buacutesqueda pero no el segundo

Ejemplo Knowbots AND NOT copernic recupera todos los documentos que

contengan la palabra Knowbots pero que no contengan la palabra copernic

En la elaboracioacuten de una ecuacioacuten de buacutesqueda es habitual la combinacioacuten de maacutes

de uno de estos operadores por lo que seraacute necesario conocer en profundidad el

sistema para saber las prioridades a la hora de su ejecucioacuten puesto que los copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

7

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

8

resultados pueden variar sustancialmente A menudo estas prioridades vienen

marcadas por el uso de pareacutentesis de manera que se ejecuta en primer lugar el

operador que une los teacuterminos que estaacuten entre pareacutentesis

Ejemplo (bullseye OR copernic OR lexibot) AND (agentes inteligentes)

recupera los documentos que contengan los terminos agentes inteligentes y

copernic o bullseye o lexibot

112 Operadores posicionales

Los operadores posicionales toman como partida la posicioacuten del teacutermino en

relacioacuten a su contexto es decir en relacioacuten a los otros teacuterminos y al documento

Estos operadores se pueden dividir en dos tipos los relativos y los absolutos

1121 Operadores posicionales relativos

A menudo llamados operadores de adyacencia o proximidad Permiten definir al

sistema de buacutesqueda la distancia que puede existir entre un teacutermino y otro Se

pueden buscar teacuterminos que esteacuten juntas separadas por varias palabras o

caracteres que se encuentren en una misma frase o un mismo paacuterrafo e incluso

si se debe o no respetar el orden de los teacuterminos Existe una gran variedad de

operadores de adyacencia y expresan diferentes situaciones seguacuten los sistemas

NEAR operador que obliga a estar a un nuacutemero determinado de distancia

las palabras claves a recuperar Este nuacutemero variacutea en funcioacuten de los

diferentes programas de recuperacioacuten de la informacioacuten asiacute por ejemplo

mientras en Altavista significa un maacuteximo de 10 palabras entre los

teacuterminos en WebCrawler significa un maacuteximo de 2 palabras

Ejemplo bullseye NEAR copernic recupera textos con frases como

ldquobullseye es mejor que copernicrdquo o ldquocopernic tiene maacutes motores que

bullseyerdquo

NEARN realiza la misma operacioacuten que NEAR pero N es sustituido por la

distancia en palabras que deben estar separados los teacuterminos de

buacutesqueda

Ejemplo bullseye NEAR5 copernic recupera todos los documentos que

aparezcan los dos terminos y cuya separacioacuten no sea mayor a cinco

palabras

Otra posibilidad es hacer una buacutesqueda de una frase exacta Consiste en la

interseccioacuten de las palabras de buacutesqueda que ademaacutes estaacuten adyacentes y en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

9

el orden en que se describen

ldquo rdquo emplear las comillas expresa que debe aparecer la frase exacta y en el

mismo orden

Ejemplo ldquocomparacioacuten de agentes inteligentesrdquo tiene que aparecer esta frase

en los documentos para que sean recuperados

1122 Operadores posicionales absolutos

Se trata de operadores que permiten buscar el o los teacuterminos en un lugar

determinado del documento En general son operadores delimitadores de un

campo

Link recupera todos los links que contenga el teacutermino buscado

Ejemplo Linkldquoagentes inteligentesrdquo recupera todos los links que contenga la

frase exacta agentes inteligentes

Title recupera en los tiacutetulos de web correos etc la palabras deseadas

Ejemplo Titleldquoagentes inteligentesrdquo recupera uacutenicamente del tiacutetulo la frase

exacta

Url busca url que contengan los teacuterminos de la ecuacioacuten de buacutesqueda

Ejemplo Urlldquougresrdquo presenta todos las paacuteginas web de la Universidad de

Granada

Body recupera del cuerpo del documento el conjunto de palabras deseadas

Ejemplo Bodyldquoagentes inteligentesrdquo recupera del cuerpo del documento

uacutenicamente la frase exacta de la ecuacioacuten de buacutesqueda

113 Operadores de truncamiento y de liacutemitecomparacioacuten

Operadores de comparacioacuten o de rango Limitan la buacutesqueda mediante una

expresioacuten que establece un rango de valores especialmente numeacutericos

Corresponden a formas tipo ldquoigual querdquo(simbolizado por = EQ) ldquomayor

querdquo (simbolizado por gt GT) ldquomenor querdquo( simbolizado por lt LT) o

operadores de inteacutervalos (simbolizado por un guioacuten to gtlt)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

10

Operadores de truncamiento o maacutescaras Los truncamientos ayudan a

buscar todas las posibilidades semaacutenticas de un teacutermino por ejemplo sus

derivados fijados por prefjiacioacuten o sufijacioacuten las variantes leacutexicas Asiacute los

llamados caracteres comodiacuten como el asterisco () o la interrogacioacuten ()

sustituyen un caraacutecter o un conjunto de caracteres

Ejemplo document recupera todas las palabras que contengan esta raiz

por ejemplo documento documentos documentalista documentado etc

12 Las herramientas de recuperacioacuten de informacioacuten web

En Espantildea existen diferentes imprecisiones terminoloacutegicas a este respecto Por un

lado a los motores de buacutesqueda se les ha denominado con otros teacuterminos

sinoacutenimos tales como buscadores rastreadores webcrawlers agentes iacutendices

directorios Por otro durante cierto tiempo se han confundido tres tecnologiacuteas que

ahora tienen autonomiacutea propia los iacutendices temaacuteticosdirectorios los motores de

buacutesqueda y los agentes inteligentes

En principio la diferencia entre motor de buacutesqueda e iacutendice temaacutetico o directorio

parece clara Un iacutendice temaacutetico es una paacutegina web (sitio web) en donde las

distintas materias se encuentran organizadas en torno a un conjunto de epiacutegrafes

Esta diferencia se tambalea cuando nos encontramos con iacutendices temaacuteticos como

Yahoo (wwwyahoocom) que presenta un interfaz similar a los motores e incluso

permite realizar buacutesquedas sobre los recursos que tiene sistematizados En general

la diferencia radica en el hecho de que los iacutendices temaacuteticos contienen direcciones

que son recopiladas organizadas y clasificadas manualmente y la buacutesqueda se lleva

a cabo exclusivamente sobre los recursos indexados del directorio

Los agentes inteligentes pueden realizar una serie de tareas sin que los humanos u

otros agentes les tengan que decir queacute hacer a cada paso que dan en su camino

Se diferencian de los motores de buacutesqueda en que eacutestos albergan contenidos

estaacuteticos (aunque se actualizan con cierta frecuencia) y responden directamente a

las peticiones de los usuarios Si un motor de buacutesqueda pudiera almacenar

peticiones de los usuarios y notificarles la llegada de informacioacuten uacutetil entonces el

motor de buacutesqueda seriacutea un agente Sin embargo la diferenciacioacuten no es

radicalmente clara puesto que se denominan agentes inteligentes a softwares que

realmente no lo son

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

11

121 Tipos de herramientas de buacutesqueda y recuperacioacuten

A continuacioacuten se presenta una definicioacuten estaacutendar de cada una de las herramientas

de buacutesqueda y recuperacioacuten de informacioacuten mencionadas anteriormente

1211 Los directorios o iacutendices temaacuteticos

Los directorios o iacutendices presentan una seleccioacuten de recursos webs organizados

siguiendo una estructura o clasificacioacuten jeraacuterquica de materias que va de categoriacuteas

maacutes amplias a categoriacuteas maacutes especiacuteficas Los directorios se exploran mediante la

navegacioacuten (browsing) de una base de datos de documentos web compilados

recogidos y organizados manualmente por expertos (ayudados por robots de

localizacioacuten automaacutetica de recursos en la red) La buacutesqueda jeraacuterquica sirve al

usuario de guiacutea permitiendo acceder a la informacioacuten en el contexto temaacutetico al

que pertenece y en relacioacuten a otras aacutereas temaacuteticas

Los directorios tambieacuten presentan un motor de buacutesqueda interno para localizar

directamente recursos de la base de datos mediante diferentes ecuaciones de

buacutesqueda y palabras clave obviando de esta manera el uso del directorio temaacutetico

Los sistemas de buacutesqueda por palabras pueden actuar de dos maneras

Sobre la clasificacioacuten en una seccioacuten de ella (cuando por ejemplo

sabemos en queacute parte del directorio podemos localizar la informacioacuten

que nos interesa)

Sobre las paacuteginas pero en este caso se limitan a la informacioacuten

recopilada por el iacutendice (fundamentalmente sitios web no paacuteginas)

Asiacute pues la buacutesqueda de informacioacuten en los directorios puede hacerse bien de

forma guiada mediante clasificaciones jeraacuterquicas bien a partir de teacuterminos

especiacuteficos

Los directorios maacutes comunes son aquellos que ofrecen una navegacioacuten por temas

y con una cobertura generalista como por ejemplo Yahoo (Yet Another

Hierarchical Officious Oracle) Sin embargo tambieacuten existen directorios que

permiten por ejemplo una navegacioacuten geograacutefica (Virtual Tourist

httpwwwvirtualtouristcom ) o directorios especializados

Los servicios de consulta basados en directorios han ido incorporando prestaciones

y han evolucionado hacia lo que actualmente se llaman portales un conjunto de

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

12

servicios que pretende satisfacer todas las necesidades de los usuarios de Internet

(cuentas de correo electroacutenico chat paacuteginas amarillas y blancas informacioacuten

metereoloacutegica y de la bolsa servicio de noticias)

1212 Los motores de buacutesqueda

Los motores de buacutesqueda o buscadores tienen sus antecedentes en los simples

listados de direcciones de recursos y documentos de la red y son la respuesta al

raacutepido volumen de crecimiento dela red que supera la capacidad de los recursos

humanos de los directorios ndash que por ello suelen ser selectivos - Los buscadores

son bases de datos creadas por indizacioacuten automaacutetica del texto completo de las

paacuteginas web y realizada por un programa llamado robot Este robot loacutegico o

arantildea (spider) explora de forma automaacutetica los servidores extrayendo las palabras

maacutes significativas de cada paacutegina y creando un iacutendice de buacutesqueda Aun cuando

los programas lleguen a ser similares no existen dos programas de buacutesqueda

exactamente similares en teacuterminos de tamantildeo velocidad y contenido no existen

dos motores de buacutesqueda que utilicen coincidentemente el mismo listado de

relevancia y tampoco cada motor de buacutesqueda ofrece las mismas opciones de

buacutesqueda Por lo tanto su buacutesqueda resultaraacute diferente en cada motor utilizado La

diferencia podriacutea no ser mucha pero siacute significativa

Existe una gran porcioacuten de la red que las ldquoarantildeasrdquo de los buscadores no pueden o

no alcanzan a indizar Se las nombra como la Red Invisible o la Red profunda e

incluye entre otras cosas sitios protegidos por contrasentildeas documentos detraacutes de

ldquocortinas de fuegordquo material archivado herramientas interactivas y los contenidos

de ciertas bases de datos

Los servicios de consulta basados en directorios y motores de buacutesqueda han ido

incorporando prestaciones y han evolucionado hacia lo que actualmente se llaman

portales un conjunto de servicios que pretende satisfacer todas las necesidades de

los usuarios de Internet (cuentas de correo electroacutenico chat paacuteginas amarillas y

blancas informacioacuten metereoloacutegica y de la bolsa servicio de noticias)

1213 Los agentes inteligentes

Un agente es una entidad autoacutenoma capaz de almacenar conocimiento sobre siacute

misma y sobre su entorno con unos objetivos y capacidad Asimismo 8n agente

inteligente es un programa que basaacutendose en su propio conocimiento realiza un

conjunto de operaciones para satisfacer las necesidades de un usuario o de otro

programa bien por iniciativa propia o porque alguno de estos se lo requiere

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

13

Seguacuten las leyes de la inteligencia artificial debe de tener las siguientes

caracteriacutesticas

Autonomiacutea Debe actuar sin ninguacuten tipo de intervencioacuten humana directa

y tener control sobre sus propios actos

Sociabilidad Comunicatividad Debe de ser capaz de comunicarse

mediante un lenguaje comuacuten con otros agentes e incluso con los

humanos

Capacidad de reaccioacuten Percibe su entorno y reaccionar para adaptarse a

eacutel (por ejemplo ante una palabra mal escrita determinar queacute es a traveacutes

del contexto)

Iniciativa Emprende las acciones necesarias para resolver un problema

Tipologiacuteas de herramientas de segunda generacioacuten (agentes inteligentes)

Clientes z3950 Permiten la consulta simultaacutenea de un elevado nuacutemero de

servidores mediante un uacutenico protocolo es decir un uacutenico interfaz y

lenguaje de interrogacioacuten Es especialmente uacutetil en recuperar la informacioacuten

que se encuentra en la llamada ldquoInternet invisiblerdquo informacioacuten que no es

indizada por los motores de buacutesqueda ndash por ejemplo las bases de datos -

Volcadores Permiten volcar automaacuteticamente una copia ideacutentica de sedes

directorios y documentos manteniendo su estructura y sus elementos ndash

incluso los enlaces - y creando asiacute un archivo offline Se puede programar

la hora del volcado reduciendo considerablemente el tiempo y el coste y

permite activar el vuelco de diferentes tipos especiales de documentos (

html doc pdf gif )

Mutibuscadores o metabuscadores Permiten realizar la recuperacioacuten de la

informacioacuten en varios motores de buacutesqueda simultaacuteneamente A diferencia

de los multibuscadores de primera generacioacuten la mayoriacutea de las tareas

pueden automatizarse y son muy flexibles en su configuracioacuten traducen

expresiones en lenguaje natural enviacutean los perfiles a varios motores de

buacutesqueda y procesan los resultados eliminando los duplicados y ordenando

los contenidos seguacuten criterios y formatos definibles

Trazadores Permiten la buacutesqueda en las paacuteginas enlazadas desde una

paacutegina web determinada o desde una lista de resultados de un buscador

Desde esta primera sede llamada ldquosemillardquo y aprovechando la naturaleza

hipertextual de Internet van comprobaacutendose las paacuteginas que se encuentran

enlazadas seguacuten una serie de criterios de pertinencia y asiacute sucesivamente

hasta un nivel prefijado Aunque generan mucho ruido y es una teacutecnica

lenta permite recuperar informacioacuten que es imposible de localizar para los

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

14

buscadores

Indizadores Permiten indizar y resumir automaacuteticamente diferentes paacuteginas

web y exportar los resultados en diferentes formatos reutilizables por

editores web

Mapeadores Describen iacutentegramente una sede detallando cada fichero y

directorio y proporcionando un mapa de contenidos Permiten obtener

datos numeacutericos que ayudan a evaluar dichos contenidos y establecer una

comparativa entre diferentes sedes web ndash en base a valores como el

tamantildeo la densidad hipermedia de la sede su estructura de niveles la

tipologiacutea de enlaces etc

122 Funcionamiento de los motores de buacutesqueda

Un motor de buacutesqueda estaacute formado por cuatro elementos baacutesicos

1 Un programa (tambieacuten denominado robot rastreador o webcrawler) que recorre

el WWW buscando recursos de informacioacuten y sus respectivas URLs

2 Un sistema automaacutetico de anaacutelisis de contenidos e indexacioacuten de los

documentos localizados por el robot

3 Un sistema de interrogacioacuten generalmente basado en la loacutegica booleana que

permite al usuario expresar su necesidad de informacioacuten

4 Un programa que actuacutea de pasarela entre el servidor de documentos html y la

base de datos

Funcionamiento el motor de buacutesqueda recibe la consulta del usuario (query)

formada por uno o maacutes teacuterminos realiza una consulta interna en la base de datos

que contiene los recursos web indexados y ofrece una lista de aquellos recursos que

cumplen una parte o el total de los requisitos establecidos en la consulta

Generalmente los resultados aparecen ordenados seguacuten una puntuacioacuten (score)

que el programa asocia automaacuteticamente a cada recurso

Para realizar una consulta es necesario tener en cuenta un conjunto de variables

1 Lenguaje de interrogacioacuten que debe ofrecer diferentes tipos de operadores

loacutegicos de comparacioacuten de truncamiento de proximidad de especificacioacuten de

campo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

15

2 Posibilidad de refinar (refine) una buacutesqueda inicial

3 Campos limitadores que nos permitan reducir la buacutesqueda dominios lenguas

paiacuteses fecha de creacioacuten del recurso

4 Buacutesquedas alternativas buacutesqueda simple buacutesqueda avanzada buacutesquedas

combinando operadores e iacutendices temaacuteticos etc

5 Opciones avanzadas buscar diferentes recursos (texto sonido imagen)

guardar y reutilizar buacutesquedas diferentes formatos en los resultados de

buacutesqueda (estaacutendard detallado compacto etc) buacutesqueda de conceptos

relacionados (related topics) consulta directa en bases de datos (infranets)

etc

123 Los metabuscadores

La gran cantidad de informacioacuten y el notable aumento de motores de buacutesqueda

accesibles desemboca en la necesidad de realizar consultas simultaacuteneas en

diferentes motores de buacutesqueda y con una sola estrategia (query) De esta

necesidad surgen los denominados ldquometabuscadoresrdquo que ofrecen nuevas

prestaciones y mejores y maacutes exhaustivos resultados de buacutesqueda

Los metabuscadores permiten automatizar el proceso de realizar una misma

consulta en diversos motores de buacutesqueda lo cual no significa que sea totalmente

exhaustivo puesto que el metabuscador enviacutea la consulta solamente a aquellos

motores de buacutesqueda con los que ha establecido un acuerdo previo

En el funcionamiento de los metabuscadores cabe destacar algunas variables

interesantes Por una lado la exhaustividad no estaacute garantizada (desde el

momento en el que sabemos que un motor de buacutesqueda es capaz de indexar a lo

sumo un 30 de los recursos web disponibles) Por otro los tiempos de respuesta

pueden ser mucho maacutes largos dada la necesidad de realizar muacuteltiples buacutesquedas

simultaacuteneas (Metacrawler permite delimitar el tiempo maacuteximo de espera de 1 a 10

minutos) ademaacutes la recuperacioacuten de recursos duplicados suele ser muy elevada

por ello algunos metabuscadores ya han implementado la utilidad que permite

eliminar los duplicados

124 Tendencia actual de los motores de buacutesqueda

Partiendo de los problemas actuales que presentan los motores de buacutesqueda en

cuanto a su funcionamiento y los resultados ofrecidos se pueden adelantar algunas

viacuteas de solucioacuten futura que marcan la tendencia en la evolucioacuten de los motores de

buacutesqueda

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

16

Los resultados de la buacutesqueda pueden ser satisfactorios o no tanto Los motores de

buacutesqueda ofrecen resultados muy diferentes ante una misma cuestioacuten inicial este

hecho demuestra la poca exhaustividad de los motores en la indexacioacuten de los

recursos web y pone de manifiesto los problemas derivados de la escasez de control

linguumliacutestico

Actualmente se aboga por la incorporacioacuten de herramientas de anaacutelisis linguumliacutestico y

control terminoloacutegico en los motores de buacutesqueda de forma que sea posible

efectuar una recuperacioacuten menos ligada a la comparacioacuten de cadenas de caracteres

y maacutes vinculada a la comparacioacuten de conceptos

La escasa calidad de la informacioacuten recuperada es otro inconveniente de los

actuales motores de buacutesqueda Los mecanismos para aumentar la precisioacuten en la

buacutesqueda (refinamientos buacutesquedas avanzadas acotacioacuten por dominios etc) a

veces no funcionan como cabriacutea esperar A ello hay que antildeadir el miacutenimo valor de

algunos de los sitios web recuperados el porcentaje de recursos repetidos y el

porcentaje de recursos inactivos (que ya no existen fiacutesicamente en la red aunque

continuacutean indexados)

En este sentido se empieza a hablar de una Internet para el gran puacuteblico y una

Internet de los recursos culturales cientiacuteficos y teacutecnicos La especializacioacuten de los

motores de buacutesqueda es una buena viacutea para conseguir mejores servicios de

informacioacuten la especializacioacuten conduce a la concentracioacuten del conocimiento en

ciertos lugares donde los usuarios pueden encontrar faacutecilmente los recursos

relacionados con su aacutembito de conocimiento

13 La Infranet o Internet invisible

La infranet o Internet invisible es el conjunto de recursos accesibles uacutenicamente a

traveacutes de alguacuten tipo de pasarela o formulario web y que por tanto no pueden ser

indizados de forma estructural por los robots de los motores de buacutesqueda

Muchos de estos recursos son de gran calidad y desde el punto de vista del gestor

de informacioacuten tienen una importancia clave en la recuperacioacuten de informacioacuten de

alto valor antildeadido Su invisibilidad para los motores de buacutesqueda implica una

dificultad considerable para la recuperacioacuten efectiva de estos recursos y requiere

aproximaciones novedosas por parte de los profesionales

131 Los recursos de la Internet invisible

La propia heterogeneidad formal de la informacioacuten en Internet puede plantear

dificultades a la hora de entender queacute recursos estaacuten incluido bajo la denominacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

17

de Internet Invisible Con el fin de clarificar queacute contenidos pueden resultar

invisibles se ha considerado una clasificacioacuten que atiende a criterios documentales

Bases de datos bibliograacuteficas se incluyen en este grupo los cataacutelogos de

biblioteca accesibles a traveacutes de una pasarela (OPAC) web otras bases de datos de

referencias bibliograacuteficas (de acceso puacuteblico o restringido ndashregistro previo gratuito o

de pago-) y entidades similares tales como los cataacutelogos de libreriacuteas (ej

Amazoncom)

Bases de datos alfanumeacutericas definidas por exclusioacuten del grupo anterior son

todas las bases de datos que no tienen caraacutecter bibliograacutefico Comprenderiacutea

ademaacutes los recursos llamados de referencia que requiren alguacuten tipo de pasarela de

acceso para su consulta (ej Encyclopaedia Britannica)

Una situacioacuten ligeramente distinta es la planteada por las paacuteginas generadas

dinaacutemicamente (asp jsp php o similares) Dichas paacuteginas soacutelo existen en virtud de

una consulta puntual imposible de realizar por los robots de los motores de

buacutesqueda y cuyo contenido puede alcanzar un considerable grado de

personalizacioacuten Desde un punto de vista documental los contenidos que explotan

estaacuten en una base de datos y por tanto se consideran dentro de esta categoriacutea

Archivos y revistas electroacutenicas se trata de bases de datos que incluyen

documentos a texto completo y que soacutelo se pueden recuperar previa identificacioacuten

de la referencia labor para la que se requiere utilizar una pasarela web simple

(formulario de consulta) o doble (palabra de acceso y formulario de consulta)

Ficheros no HTML o textuales el (relativo) fracaso de HTML original a la hora de

generar paacuteginas con una maquetacioacuten muy rica ha permitido que algunos formatos

de disentildeo maacutes elaborado hayan adquirido popularidad en la web (pdf ps ppt doc)

Estos formatos no textuales no son indizados correctamente por los robots de los

motores de buacutesqueda (excepcioacuten Googlecom ya indiza documentos pdf y los

convierte en HTML) y por tanto constituyen una parte del webespacio invisible que

ha ido adquiriendo cada vez maacutes importancia

132 La recuperacioacuten de la informacioacuten en la Internet invisible

La recuperacioacuten de la informacioacuten en la Internet invisible se apoya

fundamentalmente en la disponibilidad de directorios e iacutendices que identifiquen y

organicen su principales recursos El maacutes importante en el mercado espantildeol es la

sede espantildeola de Internet Invisible httpwwwinternetinvisiblecom

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

18

Las herramientas maacutes importantes para la recuperacioacuten de estos recursos de

informacioacuten invisibles son

Clientes Z3950 La progresiva adopcioacuten del protocolo Z3950 por la mayoriacutea de

las bibliotecas estaacute incrementando el valor de los clientes Z3950 que ya pueden

acceder a una masa criacutetica de recursos

Bookwhere 2000 Sea Change (wwwbookwherecom)

EzCat BookSystems (wwwbooksyscomezcat)

ZNavigator EnWare (wwwenwarees)

ZSearch Infoworks Technology (wwwitcompanycom)

ZPista Ifgenia Plus (wwwifigeniaeszeta)

Agentes inteligentes estos programas se han convertido en herramientas muy

populares en Internet que permiten superar algunos de los problemas

tradicionalmente asociados a los motores de buacutesqueda No todos los agentes

ofrecen acceso a recursos de la Internet invisible e incluso aquellos que asiacute lo hacen

lo presentan como opciones avanzadas normalmente no disponibles en las

versiones ldquosharewarerdquo

BullsEye Intelliseek (wwwintelliseekcom)

Copernic Copernic (wwwcoperniccom)

EZSearch American Systems (wwwamericansyscom)

LexiBot BrightPlanet (wwwlexibotcom)

WebSeeker Blue Squirrel (wwwbluesquirrelcom)

14 Bibliografiacutea

Aguillo Cantildeo Isidro (1999) Del multibuscador al metabuscador las agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

19

trazadores de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten

y la organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada p239-245

Aguillo Cantildeo Isidro (2001) Internet invisible o Infranet definicioacuten clasificacioacuten y

evaluacioacuten En Maldonado Martiacutenez Angeles La informacioacuten especializada en

Internet Madrid CSIC p 161-178

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I Information

World en Espantildeol vol 6 nordm 5 p 22-26

Codina Lluis (2003) Internet invisible y web semaacutentica iquestel futuro de los sistemas

de informacioacuten en liacutenea Revista tradumaacutetica nordm 2 2003

Cornella Alfons (2001) Mensaje 364 de Extra-Net la revista de infonomiacutea La

infranet iquestdoacutende esta el valor

Fernaacutendez de las Heras Joseacute Manuel Diacuteaz de Cerio Pako (2000) La Intranet del

conocimiento IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del

Conocimiento retos y soluciones de los profesionales de la informacioacuten Bilbao 19-

20-21 octubre 2000 p 567-574

Goacutemez Diacuteaz Raquel (2003) La evaluacioacuten en recuperacioacuten de la informacioacutenraquo

Hipertextnet nordm 1 (mayo 2003) httpwwwhipertextnetwebpag238htm

Marcos Mora Mariacutea del Carmen (2005) Elementos visuales en sistemas de

buacutesqueda y recuperacioacuten de la informacioacuten Hipertextnet nordm 3 (mayo 2005)

httpwwwhipertextnetwebpag257htm

Martiacutenez Francisco J Rodriacuteguez Muntildeoz Joseacute Vicente (2004) Reflexiones sobre la

evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesidad utilidad y

viabilidad Anales de documentacioacuten nuacutem 7 (2004) p 153-170

httpwwwumesfccdanalesad07ad0710pdf

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada 1999)

La representacioacuten y la organizacioacuten del conocimiento en sus distintas perspectivas

su influencia en la recuperacioacuten de informacioacuten Granada Isko Universidad de

Granada p 247-248

Vaquero JR (1997) Motores de buacutesqueda Information World en Espantildeol vol 6

nordm 7-8 p 31-32

Vidal Bordeacutes Francisco Javier Salvador Olivaacuten Joseacute Antonio (2000) La

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

20

implementacioacuten de metadatos y Dublin Core en sedes y paacuteginas web de bibliotecas

y centros de documentacioacuten de universidades y centros de investigacioacuten de la Red

IRIS IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del Conocimiento

retos y soluciones de los profesionales de la informacioacuten Bilbao 19-20-21 octubre

2000 p 197-210

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

21

15 Casos praacutecticos

151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda

PRESENTACIOacuteN

La recuperacioacuten del conocimiento mediante la utilizacioacuten de motores de buacutesqueda

es muy heterogeacutenea Cada motor indexa y recupera de una forma diferente Por

tanto es importante tener unos paraacutemetros para poder evaluar queacute motores de

buacutesqueda son los maacutes adecuados ante una necesidad de informacioacuten

OBJETIVOS

Conocer el funcionamiento de los motores de buacutesqueda

Utilizar una metodologiacutea para la evaluacioacuten de motores de buacutesqueda

ENUNCIADO

El estudiante deberaacute evaluar 3 motores de buacutesqueda de aacutembito internacional para

ello usaraacute una estrategia de buacutesqueda que aplicaraacute en los 3 motores

preseleccionados de forma que puedan apreciarse claramente las diferencias entre

eacutestos

Motores de buacutesqueda Googlecom Yahoocom Altavistacom

Estrategia de buacutesqueda digital libraries

Las caracteriacutesticas que pueden presentar los diferentes motores de buacutesqueda se

van a agrupar en tres apartados recogida de la informacioacuten buacutesqueda y

recuperacioacuten de la informacioacuten y presentacioacuten de los resultados

Recogida de informacioacuten En este apartado hay que determinar si el robot

es capaz de identificar las etiquetas ldquoMETArdquo de los documentos HTML y

extraer informacioacuten de las mismas para ser usada en la buacutesqueda o

presentacioacuten de resultados

Buacutesqueda Las caracteriacutesticas baacutesicas que un motor de buacutesqueda debe

cumplir desde el punto de vista de la recuperacioacuten de la informacioacuten son las

siguientes

o Formularios de buacutesqueda posibilidad de elegir entre simple o

avanzado

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

22

o Herramientas de buacutesqueda posibilidad de utilizar operadores

booleanos (AND OR NOT) pareacutentesis comillas para los teacuterminos

compuestos o frases y finalmente posibilidad de truncado en

palabras derivadas

o Clasificacioacuten temaacutetica existencia de un iacutendice general para aquellos

que no saben concretar su tema de buacutesqueda

o Campos de buacutesqueda posibilidad de limitar la buacutesqueda a campos

determinados tales como Tiacutetulo URL Descripcioacuten Palabras Clave

Localizacioacuten e Idioma

o Control del vocabulario descubrir si el motor dispone de alguna

herramienta para eliminar sinonimias y polisemias etc

o Deteccioacuten de novedades posibilidad de diferenciar los nuevos

recursos incorporados

Resultados Hay que tener en cuenta si el motor de buacutesqueda permite

elegir entre diferentes formatos de presentacioacuten de los resultados asiacute como

diversos criterios de ordenacioacuten

FORMATO

El establecido en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

23

CUADRO PARA LA EVALUACIOacuteN DE MOTORES DE BUacuteSQUEDA

Recogida de

informacioacuten

Buacutesqueda y Recuperacioacuten de Informacioacuten

Resultados

Formularios

Herramientas de buacutesqueda

Clasif

Campos de buacutesqueda

Format

Orden

MOTORES

Metadata No

Metadata

Simple Avanz

OR

AND

NOT

( )

ldquo ldquo

Tiacutet

URL

Desc

Keyw

Loc

Leng

Control

Vocab

Nov

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

24

152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda

PRESENTACIOacuteN

Una organizacioacuten ha destinado una partida presupuestaria para aumentar la

presencia web del ayuntamiento e implementar servicios y productos de

informacioacuten interactivos para los ciudadanos

Los departamentos de Informaacutetica Documentacioacuten y Comunicacioacuten estaacuten

colaborando en el proceso de compra de nuevo software que permita implementar

estas prestaciones y sea compatible con el back-office de la organizacioacuten

En la proacutexima reunioacuten se va a decidir queacute software para la implementacioacuten de un

motor de buacutesqueda en la Intranet y sitio web del ayuntamiento se va a adquirir

OBJETIVOS

Conocer las caracteriacutesticas de los principales software del mercado para la

implentacioacuten de tecnologiacutea pull para la recuperacioacuten de la informacioacuten

Presentar una aplicacioacuten praacutectica de la gestioacuten del conocimiento

(recuperacioacuten) en un entorno web

Evaluar un paquete de software con relacioacuten a unos criterios teacutecnicos y

metodoloacutegicos preestablecidos

ENUNCIADO

El estudiante es la persona que representa al Departamento de Documentacioacuten en

esta reunioacuten y debes presentar tu propuesta del paquetes de software que maacutes se

adapta a los requerimientos de la organizacioacuten

Los requerimientos establecidos en la reunioacuten anterior son

Software compatible con el Sistema de Informacioacuten del ayuntamiento

Oracle portal sobre UNIX Bases de datos Access y SQL Server JSP y

Dreamweaver Ultradev

Software compatible con cualquier plataforma web Intranet sitio web CD-

ROM DVD

Indexacioacuten de materiales diversos HTML XML asp php pdf doc etc

Entorno usable y familiar para el usuario interno y externo

Opciones de buacutesqueda avanzada operadores booleanos truncamiento

limitaciones de campo y otros

Indexacioacuten de paacuteginas HTML y de texto en varios idiomas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

25

FORMATO

El formato debe centildeirse a los siguientes apartados

1 Metodologiacutea de la evaluacioacuten [el estudiante debe enunciar las fuentes

consultadas y el conjunto de los paquetes de software analizados]

2 Evaluacioacuten del software [el estudiante debe recopilar la siguiente informacioacuten

del paquetes de software seleccionados]

Nombre del SW

Precio

Requerimientos que cumple

Compatibilidad con el sistema de informacioacuten

Compatibilidad con diferentes plataformas web

Indexacioacuten de materiales diversos

Usabilidad del entorno

Opciones de buacutesqueda

Idiomas

3 Propuesta del Departamento de Documentacioacuten[el estudiante debe comentar

algunos puntos a favor yo en contra del software propuesto como opcioacuten 1]

RECURSOS

Sullivan Danny Search Engine Software for your web site

SearchEngineWatchcom Sept 16 2002 (Consultado el 23-05-2006)

httpsearchenginewatchcomresourcessoftwarehtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

26

16 Anexo Introduccioacuten a Google

Presentacioacuten

Internet es una extensa red de documentos de muacuteltiples formatos desde paacuteginas

web en html a documentos de distintos tipos como puedan ser textos imaacutegenes

archivos de sonido o de viacutedeo etc Cuando necesitas buscar cierta informacioacuten en

Internet lo maacutes eficaz es utilizar un buscador ya que estas herramientas disponen

de robots que rastrean la web en busca de informacioacuten e indexan los documentos

seguacuten sus formatos y contenidos de tal forma que muestran a sus usuarios los

documentos relevantes con los criterios de buacutesqueda elegidos

Conocer adecuadamente las propiedades y herramientas de cada buscador nos

puede ayudar a restringir las buacutesquedas a lo que realmente es relevante para

nosotros sin embargo generalmente estos criterios son desconocidos por el

internauta medio ya que se basan en criterios documentales

Google es el buscador maacutes famoso y utilizado realizar una buacutesqueda bien acotada

es necesario incluir el maacuteximo de palabras relevantes para el usuario prestando

especial atencioacuten a los diferentes significados de una palabra Google determina los

resultados por las coincidencias y cercaniacutea de las palabras entre siacute Google tampoco

distingue entre mayuacutesculas y minuacutesculas ni acentos Entrecomillar frases obliga al

buscador a encontrar paacuteginas que tengan esa frase completa

Buacutesqueda sencilla

httpwwwgoogleesintleshelpbasicshtml

iquestQueacute operador booleano utilizan por defecto las buacutesquedas sencillas Pon un

ejemplo

iquestGoogle permite la utilizacioacuten de comodines () para limitar la buacutesqueda Pon un

ejemplo

iquestGoogle diferencia los acentos y las mayuacutesculas y minuacutesculas Pon un ejemplo

Restricciones en la buacutesqueda

httpwwwgoogleesintleshelprefinesearchhtml

iquestCoacutemo se excluye una palabra de una estrategia de buacutesqueda Por ejemplo de la

buacutesqueda [biblioteca arte moderno] queacute debo hacer para excluir la palabra

moderno

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

iquestQueacute debo hacer para buscar una frase por ejemplo [gran hermano]

iquestCoacutemo puedo buscar noticias sobre la guerra de Irak soacutelo en el sitio web del

Elmundoes Especifica la estrategia de buacutesqueda

Buacutesqueda avanzada

httpwwwgoogleesadvanced_searchhl=es

Los buscadores de internet han superado ampliamente las claacutesicas posibilidades de

filtrado de preguntas basadas en el aacutelgebra booleana (operadores Y NO O en

ingleacutes AND OR y NOT) Por ejemplo google descarta por defecto el operador

booleano OR (historia O roma) asumiendo que su base de datos es tan grande

que o intenta ser muy especiacutefico o el resultado obtenido en una consulta de este

tipo tendraacute demasiado ruido esto saldraacuten demasiadas respuestas Aun asiacute nos

permite utilizarlo a voluntad en su buacutesqueda avanzada

Asiacute google busca por defecto con el operador AND (historia Y roma) y es maacutes

aplica por defecto un operador NEAR decreciente NEAR busca paacuteginas en las que

aparezca historia y tambieacuten roma con una o maacutes palabras de separacioacuten entre

ambos conceptos El nuacutemero de palabras se regula por 123 etc copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

27

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 8: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

8

resultados pueden variar sustancialmente A menudo estas prioridades vienen

marcadas por el uso de pareacutentesis de manera que se ejecuta en primer lugar el

operador que une los teacuterminos que estaacuten entre pareacutentesis

Ejemplo (bullseye OR copernic OR lexibot) AND (agentes inteligentes)

recupera los documentos que contengan los terminos agentes inteligentes y

copernic o bullseye o lexibot

112 Operadores posicionales

Los operadores posicionales toman como partida la posicioacuten del teacutermino en

relacioacuten a su contexto es decir en relacioacuten a los otros teacuterminos y al documento

Estos operadores se pueden dividir en dos tipos los relativos y los absolutos

1121 Operadores posicionales relativos

A menudo llamados operadores de adyacencia o proximidad Permiten definir al

sistema de buacutesqueda la distancia que puede existir entre un teacutermino y otro Se

pueden buscar teacuterminos que esteacuten juntas separadas por varias palabras o

caracteres que se encuentren en una misma frase o un mismo paacuterrafo e incluso

si se debe o no respetar el orden de los teacuterminos Existe una gran variedad de

operadores de adyacencia y expresan diferentes situaciones seguacuten los sistemas

NEAR operador que obliga a estar a un nuacutemero determinado de distancia

las palabras claves a recuperar Este nuacutemero variacutea en funcioacuten de los

diferentes programas de recuperacioacuten de la informacioacuten asiacute por ejemplo

mientras en Altavista significa un maacuteximo de 10 palabras entre los

teacuterminos en WebCrawler significa un maacuteximo de 2 palabras

Ejemplo bullseye NEAR copernic recupera textos con frases como

ldquobullseye es mejor que copernicrdquo o ldquocopernic tiene maacutes motores que

bullseyerdquo

NEARN realiza la misma operacioacuten que NEAR pero N es sustituido por la

distancia en palabras que deben estar separados los teacuterminos de

buacutesqueda

Ejemplo bullseye NEAR5 copernic recupera todos los documentos que

aparezcan los dos terminos y cuya separacioacuten no sea mayor a cinco

palabras

Otra posibilidad es hacer una buacutesqueda de una frase exacta Consiste en la

interseccioacuten de las palabras de buacutesqueda que ademaacutes estaacuten adyacentes y en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

9

el orden en que se describen

ldquo rdquo emplear las comillas expresa que debe aparecer la frase exacta y en el

mismo orden

Ejemplo ldquocomparacioacuten de agentes inteligentesrdquo tiene que aparecer esta frase

en los documentos para que sean recuperados

1122 Operadores posicionales absolutos

Se trata de operadores que permiten buscar el o los teacuterminos en un lugar

determinado del documento En general son operadores delimitadores de un

campo

Link recupera todos los links que contenga el teacutermino buscado

Ejemplo Linkldquoagentes inteligentesrdquo recupera todos los links que contenga la

frase exacta agentes inteligentes

Title recupera en los tiacutetulos de web correos etc la palabras deseadas

Ejemplo Titleldquoagentes inteligentesrdquo recupera uacutenicamente del tiacutetulo la frase

exacta

Url busca url que contengan los teacuterminos de la ecuacioacuten de buacutesqueda

Ejemplo Urlldquougresrdquo presenta todos las paacuteginas web de la Universidad de

Granada

Body recupera del cuerpo del documento el conjunto de palabras deseadas

Ejemplo Bodyldquoagentes inteligentesrdquo recupera del cuerpo del documento

uacutenicamente la frase exacta de la ecuacioacuten de buacutesqueda

113 Operadores de truncamiento y de liacutemitecomparacioacuten

Operadores de comparacioacuten o de rango Limitan la buacutesqueda mediante una

expresioacuten que establece un rango de valores especialmente numeacutericos

Corresponden a formas tipo ldquoigual querdquo(simbolizado por = EQ) ldquomayor

querdquo (simbolizado por gt GT) ldquomenor querdquo( simbolizado por lt LT) o

operadores de inteacutervalos (simbolizado por un guioacuten to gtlt)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

10

Operadores de truncamiento o maacutescaras Los truncamientos ayudan a

buscar todas las posibilidades semaacutenticas de un teacutermino por ejemplo sus

derivados fijados por prefjiacioacuten o sufijacioacuten las variantes leacutexicas Asiacute los

llamados caracteres comodiacuten como el asterisco () o la interrogacioacuten ()

sustituyen un caraacutecter o un conjunto de caracteres

Ejemplo document recupera todas las palabras que contengan esta raiz

por ejemplo documento documentos documentalista documentado etc

12 Las herramientas de recuperacioacuten de informacioacuten web

En Espantildea existen diferentes imprecisiones terminoloacutegicas a este respecto Por un

lado a los motores de buacutesqueda se les ha denominado con otros teacuterminos

sinoacutenimos tales como buscadores rastreadores webcrawlers agentes iacutendices

directorios Por otro durante cierto tiempo se han confundido tres tecnologiacuteas que

ahora tienen autonomiacutea propia los iacutendices temaacuteticosdirectorios los motores de

buacutesqueda y los agentes inteligentes

En principio la diferencia entre motor de buacutesqueda e iacutendice temaacutetico o directorio

parece clara Un iacutendice temaacutetico es una paacutegina web (sitio web) en donde las

distintas materias se encuentran organizadas en torno a un conjunto de epiacutegrafes

Esta diferencia se tambalea cuando nos encontramos con iacutendices temaacuteticos como

Yahoo (wwwyahoocom) que presenta un interfaz similar a los motores e incluso

permite realizar buacutesquedas sobre los recursos que tiene sistematizados En general

la diferencia radica en el hecho de que los iacutendices temaacuteticos contienen direcciones

que son recopiladas organizadas y clasificadas manualmente y la buacutesqueda se lleva

a cabo exclusivamente sobre los recursos indexados del directorio

Los agentes inteligentes pueden realizar una serie de tareas sin que los humanos u

otros agentes les tengan que decir queacute hacer a cada paso que dan en su camino

Se diferencian de los motores de buacutesqueda en que eacutestos albergan contenidos

estaacuteticos (aunque se actualizan con cierta frecuencia) y responden directamente a

las peticiones de los usuarios Si un motor de buacutesqueda pudiera almacenar

peticiones de los usuarios y notificarles la llegada de informacioacuten uacutetil entonces el

motor de buacutesqueda seriacutea un agente Sin embargo la diferenciacioacuten no es

radicalmente clara puesto que se denominan agentes inteligentes a softwares que

realmente no lo son

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

11

121 Tipos de herramientas de buacutesqueda y recuperacioacuten

A continuacioacuten se presenta una definicioacuten estaacutendar de cada una de las herramientas

de buacutesqueda y recuperacioacuten de informacioacuten mencionadas anteriormente

1211 Los directorios o iacutendices temaacuteticos

Los directorios o iacutendices presentan una seleccioacuten de recursos webs organizados

siguiendo una estructura o clasificacioacuten jeraacuterquica de materias que va de categoriacuteas

maacutes amplias a categoriacuteas maacutes especiacuteficas Los directorios se exploran mediante la

navegacioacuten (browsing) de una base de datos de documentos web compilados

recogidos y organizados manualmente por expertos (ayudados por robots de

localizacioacuten automaacutetica de recursos en la red) La buacutesqueda jeraacuterquica sirve al

usuario de guiacutea permitiendo acceder a la informacioacuten en el contexto temaacutetico al

que pertenece y en relacioacuten a otras aacutereas temaacuteticas

Los directorios tambieacuten presentan un motor de buacutesqueda interno para localizar

directamente recursos de la base de datos mediante diferentes ecuaciones de

buacutesqueda y palabras clave obviando de esta manera el uso del directorio temaacutetico

Los sistemas de buacutesqueda por palabras pueden actuar de dos maneras

Sobre la clasificacioacuten en una seccioacuten de ella (cuando por ejemplo

sabemos en queacute parte del directorio podemos localizar la informacioacuten

que nos interesa)

Sobre las paacuteginas pero en este caso se limitan a la informacioacuten

recopilada por el iacutendice (fundamentalmente sitios web no paacuteginas)

Asiacute pues la buacutesqueda de informacioacuten en los directorios puede hacerse bien de

forma guiada mediante clasificaciones jeraacuterquicas bien a partir de teacuterminos

especiacuteficos

Los directorios maacutes comunes son aquellos que ofrecen una navegacioacuten por temas

y con una cobertura generalista como por ejemplo Yahoo (Yet Another

Hierarchical Officious Oracle) Sin embargo tambieacuten existen directorios que

permiten por ejemplo una navegacioacuten geograacutefica (Virtual Tourist

httpwwwvirtualtouristcom ) o directorios especializados

Los servicios de consulta basados en directorios han ido incorporando prestaciones

y han evolucionado hacia lo que actualmente se llaman portales un conjunto de

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

12

servicios que pretende satisfacer todas las necesidades de los usuarios de Internet

(cuentas de correo electroacutenico chat paacuteginas amarillas y blancas informacioacuten

metereoloacutegica y de la bolsa servicio de noticias)

1212 Los motores de buacutesqueda

Los motores de buacutesqueda o buscadores tienen sus antecedentes en los simples

listados de direcciones de recursos y documentos de la red y son la respuesta al

raacutepido volumen de crecimiento dela red que supera la capacidad de los recursos

humanos de los directorios ndash que por ello suelen ser selectivos - Los buscadores

son bases de datos creadas por indizacioacuten automaacutetica del texto completo de las

paacuteginas web y realizada por un programa llamado robot Este robot loacutegico o

arantildea (spider) explora de forma automaacutetica los servidores extrayendo las palabras

maacutes significativas de cada paacutegina y creando un iacutendice de buacutesqueda Aun cuando

los programas lleguen a ser similares no existen dos programas de buacutesqueda

exactamente similares en teacuterminos de tamantildeo velocidad y contenido no existen

dos motores de buacutesqueda que utilicen coincidentemente el mismo listado de

relevancia y tampoco cada motor de buacutesqueda ofrece las mismas opciones de

buacutesqueda Por lo tanto su buacutesqueda resultaraacute diferente en cada motor utilizado La

diferencia podriacutea no ser mucha pero siacute significativa

Existe una gran porcioacuten de la red que las ldquoarantildeasrdquo de los buscadores no pueden o

no alcanzan a indizar Se las nombra como la Red Invisible o la Red profunda e

incluye entre otras cosas sitios protegidos por contrasentildeas documentos detraacutes de

ldquocortinas de fuegordquo material archivado herramientas interactivas y los contenidos

de ciertas bases de datos

Los servicios de consulta basados en directorios y motores de buacutesqueda han ido

incorporando prestaciones y han evolucionado hacia lo que actualmente se llaman

portales un conjunto de servicios que pretende satisfacer todas las necesidades de

los usuarios de Internet (cuentas de correo electroacutenico chat paacuteginas amarillas y

blancas informacioacuten metereoloacutegica y de la bolsa servicio de noticias)

1213 Los agentes inteligentes

Un agente es una entidad autoacutenoma capaz de almacenar conocimiento sobre siacute

misma y sobre su entorno con unos objetivos y capacidad Asimismo 8n agente

inteligente es un programa que basaacutendose en su propio conocimiento realiza un

conjunto de operaciones para satisfacer las necesidades de un usuario o de otro

programa bien por iniciativa propia o porque alguno de estos se lo requiere

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

13

Seguacuten las leyes de la inteligencia artificial debe de tener las siguientes

caracteriacutesticas

Autonomiacutea Debe actuar sin ninguacuten tipo de intervencioacuten humana directa

y tener control sobre sus propios actos

Sociabilidad Comunicatividad Debe de ser capaz de comunicarse

mediante un lenguaje comuacuten con otros agentes e incluso con los

humanos

Capacidad de reaccioacuten Percibe su entorno y reaccionar para adaptarse a

eacutel (por ejemplo ante una palabra mal escrita determinar queacute es a traveacutes

del contexto)

Iniciativa Emprende las acciones necesarias para resolver un problema

Tipologiacuteas de herramientas de segunda generacioacuten (agentes inteligentes)

Clientes z3950 Permiten la consulta simultaacutenea de un elevado nuacutemero de

servidores mediante un uacutenico protocolo es decir un uacutenico interfaz y

lenguaje de interrogacioacuten Es especialmente uacutetil en recuperar la informacioacuten

que se encuentra en la llamada ldquoInternet invisiblerdquo informacioacuten que no es

indizada por los motores de buacutesqueda ndash por ejemplo las bases de datos -

Volcadores Permiten volcar automaacuteticamente una copia ideacutentica de sedes

directorios y documentos manteniendo su estructura y sus elementos ndash

incluso los enlaces - y creando asiacute un archivo offline Se puede programar

la hora del volcado reduciendo considerablemente el tiempo y el coste y

permite activar el vuelco de diferentes tipos especiales de documentos (

html doc pdf gif )

Mutibuscadores o metabuscadores Permiten realizar la recuperacioacuten de la

informacioacuten en varios motores de buacutesqueda simultaacuteneamente A diferencia

de los multibuscadores de primera generacioacuten la mayoriacutea de las tareas

pueden automatizarse y son muy flexibles en su configuracioacuten traducen

expresiones en lenguaje natural enviacutean los perfiles a varios motores de

buacutesqueda y procesan los resultados eliminando los duplicados y ordenando

los contenidos seguacuten criterios y formatos definibles

Trazadores Permiten la buacutesqueda en las paacuteginas enlazadas desde una

paacutegina web determinada o desde una lista de resultados de un buscador

Desde esta primera sede llamada ldquosemillardquo y aprovechando la naturaleza

hipertextual de Internet van comprobaacutendose las paacuteginas que se encuentran

enlazadas seguacuten una serie de criterios de pertinencia y asiacute sucesivamente

hasta un nivel prefijado Aunque generan mucho ruido y es una teacutecnica

lenta permite recuperar informacioacuten que es imposible de localizar para los

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

14

buscadores

Indizadores Permiten indizar y resumir automaacuteticamente diferentes paacuteginas

web y exportar los resultados en diferentes formatos reutilizables por

editores web

Mapeadores Describen iacutentegramente una sede detallando cada fichero y

directorio y proporcionando un mapa de contenidos Permiten obtener

datos numeacutericos que ayudan a evaluar dichos contenidos y establecer una

comparativa entre diferentes sedes web ndash en base a valores como el

tamantildeo la densidad hipermedia de la sede su estructura de niveles la

tipologiacutea de enlaces etc

122 Funcionamiento de los motores de buacutesqueda

Un motor de buacutesqueda estaacute formado por cuatro elementos baacutesicos

1 Un programa (tambieacuten denominado robot rastreador o webcrawler) que recorre

el WWW buscando recursos de informacioacuten y sus respectivas URLs

2 Un sistema automaacutetico de anaacutelisis de contenidos e indexacioacuten de los

documentos localizados por el robot

3 Un sistema de interrogacioacuten generalmente basado en la loacutegica booleana que

permite al usuario expresar su necesidad de informacioacuten

4 Un programa que actuacutea de pasarela entre el servidor de documentos html y la

base de datos

Funcionamiento el motor de buacutesqueda recibe la consulta del usuario (query)

formada por uno o maacutes teacuterminos realiza una consulta interna en la base de datos

que contiene los recursos web indexados y ofrece una lista de aquellos recursos que

cumplen una parte o el total de los requisitos establecidos en la consulta

Generalmente los resultados aparecen ordenados seguacuten una puntuacioacuten (score)

que el programa asocia automaacuteticamente a cada recurso

Para realizar una consulta es necesario tener en cuenta un conjunto de variables

1 Lenguaje de interrogacioacuten que debe ofrecer diferentes tipos de operadores

loacutegicos de comparacioacuten de truncamiento de proximidad de especificacioacuten de

campo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

15

2 Posibilidad de refinar (refine) una buacutesqueda inicial

3 Campos limitadores que nos permitan reducir la buacutesqueda dominios lenguas

paiacuteses fecha de creacioacuten del recurso

4 Buacutesquedas alternativas buacutesqueda simple buacutesqueda avanzada buacutesquedas

combinando operadores e iacutendices temaacuteticos etc

5 Opciones avanzadas buscar diferentes recursos (texto sonido imagen)

guardar y reutilizar buacutesquedas diferentes formatos en los resultados de

buacutesqueda (estaacutendard detallado compacto etc) buacutesqueda de conceptos

relacionados (related topics) consulta directa en bases de datos (infranets)

etc

123 Los metabuscadores

La gran cantidad de informacioacuten y el notable aumento de motores de buacutesqueda

accesibles desemboca en la necesidad de realizar consultas simultaacuteneas en

diferentes motores de buacutesqueda y con una sola estrategia (query) De esta

necesidad surgen los denominados ldquometabuscadoresrdquo que ofrecen nuevas

prestaciones y mejores y maacutes exhaustivos resultados de buacutesqueda

Los metabuscadores permiten automatizar el proceso de realizar una misma

consulta en diversos motores de buacutesqueda lo cual no significa que sea totalmente

exhaustivo puesto que el metabuscador enviacutea la consulta solamente a aquellos

motores de buacutesqueda con los que ha establecido un acuerdo previo

En el funcionamiento de los metabuscadores cabe destacar algunas variables

interesantes Por una lado la exhaustividad no estaacute garantizada (desde el

momento en el que sabemos que un motor de buacutesqueda es capaz de indexar a lo

sumo un 30 de los recursos web disponibles) Por otro los tiempos de respuesta

pueden ser mucho maacutes largos dada la necesidad de realizar muacuteltiples buacutesquedas

simultaacuteneas (Metacrawler permite delimitar el tiempo maacuteximo de espera de 1 a 10

minutos) ademaacutes la recuperacioacuten de recursos duplicados suele ser muy elevada

por ello algunos metabuscadores ya han implementado la utilidad que permite

eliminar los duplicados

124 Tendencia actual de los motores de buacutesqueda

Partiendo de los problemas actuales que presentan los motores de buacutesqueda en

cuanto a su funcionamiento y los resultados ofrecidos se pueden adelantar algunas

viacuteas de solucioacuten futura que marcan la tendencia en la evolucioacuten de los motores de

buacutesqueda

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

16

Los resultados de la buacutesqueda pueden ser satisfactorios o no tanto Los motores de

buacutesqueda ofrecen resultados muy diferentes ante una misma cuestioacuten inicial este

hecho demuestra la poca exhaustividad de los motores en la indexacioacuten de los

recursos web y pone de manifiesto los problemas derivados de la escasez de control

linguumliacutestico

Actualmente se aboga por la incorporacioacuten de herramientas de anaacutelisis linguumliacutestico y

control terminoloacutegico en los motores de buacutesqueda de forma que sea posible

efectuar una recuperacioacuten menos ligada a la comparacioacuten de cadenas de caracteres

y maacutes vinculada a la comparacioacuten de conceptos

La escasa calidad de la informacioacuten recuperada es otro inconveniente de los

actuales motores de buacutesqueda Los mecanismos para aumentar la precisioacuten en la

buacutesqueda (refinamientos buacutesquedas avanzadas acotacioacuten por dominios etc) a

veces no funcionan como cabriacutea esperar A ello hay que antildeadir el miacutenimo valor de

algunos de los sitios web recuperados el porcentaje de recursos repetidos y el

porcentaje de recursos inactivos (que ya no existen fiacutesicamente en la red aunque

continuacutean indexados)

En este sentido se empieza a hablar de una Internet para el gran puacuteblico y una

Internet de los recursos culturales cientiacuteficos y teacutecnicos La especializacioacuten de los

motores de buacutesqueda es una buena viacutea para conseguir mejores servicios de

informacioacuten la especializacioacuten conduce a la concentracioacuten del conocimiento en

ciertos lugares donde los usuarios pueden encontrar faacutecilmente los recursos

relacionados con su aacutembito de conocimiento

13 La Infranet o Internet invisible

La infranet o Internet invisible es el conjunto de recursos accesibles uacutenicamente a

traveacutes de alguacuten tipo de pasarela o formulario web y que por tanto no pueden ser

indizados de forma estructural por los robots de los motores de buacutesqueda

Muchos de estos recursos son de gran calidad y desde el punto de vista del gestor

de informacioacuten tienen una importancia clave en la recuperacioacuten de informacioacuten de

alto valor antildeadido Su invisibilidad para los motores de buacutesqueda implica una

dificultad considerable para la recuperacioacuten efectiva de estos recursos y requiere

aproximaciones novedosas por parte de los profesionales

131 Los recursos de la Internet invisible

La propia heterogeneidad formal de la informacioacuten en Internet puede plantear

dificultades a la hora de entender queacute recursos estaacuten incluido bajo la denominacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

17

de Internet Invisible Con el fin de clarificar queacute contenidos pueden resultar

invisibles se ha considerado una clasificacioacuten que atiende a criterios documentales

Bases de datos bibliograacuteficas se incluyen en este grupo los cataacutelogos de

biblioteca accesibles a traveacutes de una pasarela (OPAC) web otras bases de datos de

referencias bibliograacuteficas (de acceso puacuteblico o restringido ndashregistro previo gratuito o

de pago-) y entidades similares tales como los cataacutelogos de libreriacuteas (ej

Amazoncom)

Bases de datos alfanumeacutericas definidas por exclusioacuten del grupo anterior son

todas las bases de datos que no tienen caraacutecter bibliograacutefico Comprenderiacutea

ademaacutes los recursos llamados de referencia que requiren alguacuten tipo de pasarela de

acceso para su consulta (ej Encyclopaedia Britannica)

Una situacioacuten ligeramente distinta es la planteada por las paacuteginas generadas

dinaacutemicamente (asp jsp php o similares) Dichas paacuteginas soacutelo existen en virtud de

una consulta puntual imposible de realizar por los robots de los motores de

buacutesqueda y cuyo contenido puede alcanzar un considerable grado de

personalizacioacuten Desde un punto de vista documental los contenidos que explotan

estaacuten en una base de datos y por tanto se consideran dentro de esta categoriacutea

Archivos y revistas electroacutenicas se trata de bases de datos que incluyen

documentos a texto completo y que soacutelo se pueden recuperar previa identificacioacuten

de la referencia labor para la que se requiere utilizar una pasarela web simple

(formulario de consulta) o doble (palabra de acceso y formulario de consulta)

Ficheros no HTML o textuales el (relativo) fracaso de HTML original a la hora de

generar paacuteginas con una maquetacioacuten muy rica ha permitido que algunos formatos

de disentildeo maacutes elaborado hayan adquirido popularidad en la web (pdf ps ppt doc)

Estos formatos no textuales no son indizados correctamente por los robots de los

motores de buacutesqueda (excepcioacuten Googlecom ya indiza documentos pdf y los

convierte en HTML) y por tanto constituyen una parte del webespacio invisible que

ha ido adquiriendo cada vez maacutes importancia

132 La recuperacioacuten de la informacioacuten en la Internet invisible

La recuperacioacuten de la informacioacuten en la Internet invisible se apoya

fundamentalmente en la disponibilidad de directorios e iacutendices que identifiquen y

organicen su principales recursos El maacutes importante en el mercado espantildeol es la

sede espantildeola de Internet Invisible httpwwwinternetinvisiblecom

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

18

Las herramientas maacutes importantes para la recuperacioacuten de estos recursos de

informacioacuten invisibles son

Clientes Z3950 La progresiva adopcioacuten del protocolo Z3950 por la mayoriacutea de

las bibliotecas estaacute incrementando el valor de los clientes Z3950 que ya pueden

acceder a una masa criacutetica de recursos

Bookwhere 2000 Sea Change (wwwbookwherecom)

EzCat BookSystems (wwwbooksyscomezcat)

ZNavigator EnWare (wwwenwarees)

ZSearch Infoworks Technology (wwwitcompanycom)

ZPista Ifgenia Plus (wwwifigeniaeszeta)

Agentes inteligentes estos programas se han convertido en herramientas muy

populares en Internet que permiten superar algunos de los problemas

tradicionalmente asociados a los motores de buacutesqueda No todos los agentes

ofrecen acceso a recursos de la Internet invisible e incluso aquellos que asiacute lo hacen

lo presentan como opciones avanzadas normalmente no disponibles en las

versiones ldquosharewarerdquo

BullsEye Intelliseek (wwwintelliseekcom)

Copernic Copernic (wwwcoperniccom)

EZSearch American Systems (wwwamericansyscom)

LexiBot BrightPlanet (wwwlexibotcom)

WebSeeker Blue Squirrel (wwwbluesquirrelcom)

14 Bibliografiacutea

Aguillo Cantildeo Isidro (1999) Del multibuscador al metabuscador las agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

19

trazadores de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten

y la organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada p239-245

Aguillo Cantildeo Isidro (2001) Internet invisible o Infranet definicioacuten clasificacioacuten y

evaluacioacuten En Maldonado Martiacutenez Angeles La informacioacuten especializada en

Internet Madrid CSIC p 161-178

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I Information

World en Espantildeol vol 6 nordm 5 p 22-26

Codina Lluis (2003) Internet invisible y web semaacutentica iquestel futuro de los sistemas

de informacioacuten en liacutenea Revista tradumaacutetica nordm 2 2003

Cornella Alfons (2001) Mensaje 364 de Extra-Net la revista de infonomiacutea La

infranet iquestdoacutende esta el valor

Fernaacutendez de las Heras Joseacute Manuel Diacuteaz de Cerio Pako (2000) La Intranet del

conocimiento IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del

Conocimiento retos y soluciones de los profesionales de la informacioacuten Bilbao 19-

20-21 octubre 2000 p 567-574

Goacutemez Diacuteaz Raquel (2003) La evaluacioacuten en recuperacioacuten de la informacioacutenraquo

Hipertextnet nordm 1 (mayo 2003) httpwwwhipertextnetwebpag238htm

Marcos Mora Mariacutea del Carmen (2005) Elementos visuales en sistemas de

buacutesqueda y recuperacioacuten de la informacioacuten Hipertextnet nordm 3 (mayo 2005)

httpwwwhipertextnetwebpag257htm

Martiacutenez Francisco J Rodriacuteguez Muntildeoz Joseacute Vicente (2004) Reflexiones sobre la

evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesidad utilidad y

viabilidad Anales de documentacioacuten nuacutem 7 (2004) p 153-170

httpwwwumesfccdanalesad07ad0710pdf

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada 1999)

La representacioacuten y la organizacioacuten del conocimiento en sus distintas perspectivas

su influencia en la recuperacioacuten de informacioacuten Granada Isko Universidad de

Granada p 247-248

Vaquero JR (1997) Motores de buacutesqueda Information World en Espantildeol vol 6

nordm 7-8 p 31-32

Vidal Bordeacutes Francisco Javier Salvador Olivaacuten Joseacute Antonio (2000) La

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

20

implementacioacuten de metadatos y Dublin Core en sedes y paacuteginas web de bibliotecas

y centros de documentacioacuten de universidades y centros de investigacioacuten de la Red

IRIS IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del Conocimiento

retos y soluciones de los profesionales de la informacioacuten Bilbao 19-20-21 octubre

2000 p 197-210

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

21

15 Casos praacutecticos

151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda

PRESENTACIOacuteN

La recuperacioacuten del conocimiento mediante la utilizacioacuten de motores de buacutesqueda

es muy heterogeacutenea Cada motor indexa y recupera de una forma diferente Por

tanto es importante tener unos paraacutemetros para poder evaluar queacute motores de

buacutesqueda son los maacutes adecuados ante una necesidad de informacioacuten

OBJETIVOS

Conocer el funcionamiento de los motores de buacutesqueda

Utilizar una metodologiacutea para la evaluacioacuten de motores de buacutesqueda

ENUNCIADO

El estudiante deberaacute evaluar 3 motores de buacutesqueda de aacutembito internacional para

ello usaraacute una estrategia de buacutesqueda que aplicaraacute en los 3 motores

preseleccionados de forma que puedan apreciarse claramente las diferencias entre

eacutestos

Motores de buacutesqueda Googlecom Yahoocom Altavistacom

Estrategia de buacutesqueda digital libraries

Las caracteriacutesticas que pueden presentar los diferentes motores de buacutesqueda se

van a agrupar en tres apartados recogida de la informacioacuten buacutesqueda y

recuperacioacuten de la informacioacuten y presentacioacuten de los resultados

Recogida de informacioacuten En este apartado hay que determinar si el robot

es capaz de identificar las etiquetas ldquoMETArdquo de los documentos HTML y

extraer informacioacuten de las mismas para ser usada en la buacutesqueda o

presentacioacuten de resultados

Buacutesqueda Las caracteriacutesticas baacutesicas que un motor de buacutesqueda debe

cumplir desde el punto de vista de la recuperacioacuten de la informacioacuten son las

siguientes

o Formularios de buacutesqueda posibilidad de elegir entre simple o

avanzado

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

22

o Herramientas de buacutesqueda posibilidad de utilizar operadores

booleanos (AND OR NOT) pareacutentesis comillas para los teacuterminos

compuestos o frases y finalmente posibilidad de truncado en

palabras derivadas

o Clasificacioacuten temaacutetica existencia de un iacutendice general para aquellos

que no saben concretar su tema de buacutesqueda

o Campos de buacutesqueda posibilidad de limitar la buacutesqueda a campos

determinados tales como Tiacutetulo URL Descripcioacuten Palabras Clave

Localizacioacuten e Idioma

o Control del vocabulario descubrir si el motor dispone de alguna

herramienta para eliminar sinonimias y polisemias etc

o Deteccioacuten de novedades posibilidad de diferenciar los nuevos

recursos incorporados

Resultados Hay que tener en cuenta si el motor de buacutesqueda permite

elegir entre diferentes formatos de presentacioacuten de los resultados asiacute como

diversos criterios de ordenacioacuten

FORMATO

El establecido en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

23

CUADRO PARA LA EVALUACIOacuteN DE MOTORES DE BUacuteSQUEDA

Recogida de

informacioacuten

Buacutesqueda y Recuperacioacuten de Informacioacuten

Resultados

Formularios

Herramientas de buacutesqueda

Clasif

Campos de buacutesqueda

Format

Orden

MOTORES

Metadata No

Metadata

Simple Avanz

OR

AND

NOT

( )

ldquo ldquo

Tiacutet

URL

Desc

Keyw

Loc

Leng

Control

Vocab

Nov

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

24

152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda

PRESENTACIOacuteN

Una organizacioacuten ha destinado una partida presupuestaria para aumentar la

presencia web del ayuntamiento e implementar servicios y productos de

informacioacuten interactivos para los ciudadanos

Los departamentos de Informaacutetica Documentacioacuten y Comunicacioacuten estaacuten

colaborando en el proceso de compra de nuevo software que permita implementar

estas prestaciones y sea compatible con el back-office de la organizacioacuten

En la proacutexima reunioacuten se va a decidir queacute software para la implementacioacuten de un

motor de buacutesqueda en la Intranet y sitio web del ayuntamiento se va a adquirir

OBJETIVOS

Conocer las caracteriacutesticas de los principales software del mercado para la

implentacioacuten de tecnologiacutea pull para la recuperacioacuten de la informacioacuten

Presentar una aplicacioacuten praacutectica de la gestioacuten del conocimiento

(recuperacioacuten) en un entorno web

Evaluar un paquete de software con relacioacuten a unos criterios teacutecnicos y

metodoloacutegicos preestablecidos

ENUNCIADO

El estudiante es la persona que representa al Departamento de Documentacioacuten en

esta reunioacuten y debes presentar tu propuesta del paquetes de software que maacutes se

adapta a los requerimientos de la organizacioacuten

Los requerimientos establecidos en la reunioacuten anterior son

Software compatible con el Sistema de Informacioacuten del ayuntamiento

Oracle portal sobre UNIX Bases de datos Access y SQL Server JSP y

Dreamweaver Ultradev

Software compatible con cualquier plataforma web Intranet sitio web CD-

ROM DVD

Indexacioacuten de materiales diversos HTML XML asp php pdf doc etc

Entorno usable y familiar para el usuario interno y externo

Opciones de buacutesqueda avanzada operadores booleanos truncamiento

limitaciones de campo y otros

Indexacioacuten de paacuteginas HTML y de texto en varios idiomas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

25

FORMATO

El formato debe centildeirse a los siguientes apartados

1 Metodologiacutea de la evaluacioacuten [el estudiante debe enunciar las fuentes

consultadas y el conjunto de los paquetes de software analizados]

2 Evaluacioacuten del software [el estudiante debe recopilar la siguiente informacioacuten

del paquetes de software seleccionados]

Nombre del SW

Precio

Requerimientos que cumple

Compatibilidad con el sistema de informacioacuten

Compatibilidad con diferentes plataformas web

Indexacioacuten de materiales diversos

Usabilidad del entorno

Opciones de buacutesqueda

Idiomas

3 Propuesta del Departamento de Documentacioacuten[el estudiante debe comentar

algunos puntos a favor yo en contra del software propuesto como opcioacuten 1]

RECURSOS

Sullivan Danny Search Engine Software for your web site

SearchEngineWatchcom Sept 16 2002 (Consultado el 23-05-2006)

httpsearchenginewatchcomresourcessoftwarehtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

26

16 Anexo Introduccioacuten a Google

Presentacioacuten

Internet es una extensa red de documentos de muacuteltiples formatos desde paacuteginas

web en html a documentos de distintos tipos como puedan ser textos imaacutegenes

archivos de sonido o de viacutedeo etc Cuando necesitas buscar cierta informacioacuten en

Internet lo maacutes eficaz es utilizar un buscador ya que estas herramientas disponen

de robots que rastrean la web en busca de informacioacuten e indexan los documentos

seguacuten sus formatos y contenidos de tal forma que muestran a sus usuarios los

documentos relevantes con los criterios de buacutesqueda elegidos

Conocer adecuadamente las propiedades y herramientas de cada buscador nos

puede ayudar a restringir las buacutesquedas a lo que realmente es relevante para

nosotros sin embargo generalmente estos criterios son desconocidos por el

internauta medio ya que se basan en criterios documentales

Google es el buscador maacutes famoso y utilizado realizar una buacutesqueda bien acotada

es necesario incluir el maacuteximo de palabras relevantes para el usuario prestando

especial atencioacuten a los diferentes significados de una palabra Google determina los

resultados por las coincidencias y cercaniacutea de las palabras entre siacute Google tampoco

distingue entre mayuacutesculas y minuacutesculas ni acentos Entrecomillar frases obliga al

buscador a encontrar paacuteginas que tengan esa frase completa

Buacutesqueda sencilla

httpwwwgoogleesintleshelpbasicshtml

iquestQueacute operador booleano utilizan por defecto las buacutesquedas sencillas Pon un

ejemplo

iquestGoogle permite la utilizacioacuten de comodines () para limitar la buacutesqueda Pon un

ejemplo

iquestGoogle diferencia los acentos y las mayuacutesculas y minuacutesculas Pon un ejemplo

Restricciones en la buacutesqueda

httpwwwgoogleesintleshelprefinesearchhtml

iquestCoacutemo se excluye una palabra de una estrategia de buacutesqueda Por ejemplo de la

buacutesqueda [biblioteca arte moderno] queacute debo hacer para excluir la palabra

moderno

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

iquestQueacute debo hacer para buscar una frase por ejemplo [gran hermano]

iquestCoacutemo puedo buscar noticias sobre la guerra de Irak soacutelo en el sitio web del

Elmundoes Especifica la estrategia de buacutesqueda

Buacutesqueda avanzada

httpwwwgoogleesadvanced_searchhl=es

Los buscadores de internet han superado ampliamente las claacutesicas posibilidades de

filtrado de preguntas basadas en el aacutelgebra booleana (operadores Y NO O en

ingleacutes AND OR y NOT) Por ejemplo google descarta por defecto el operador

booleano OR (historia O roma) asumiendo que su base de datos es tan grande

que o intenta ser muy especiacutefico o el resultado obtenido en una consulta de este

tipo tendraacute demasiado ruido esto saldraacuten demasiadas respuestas Aun asiacute nos

permite utilizarlo a voluntad en su buacutesqueda avanzada

Asiacute google busca por defecto con el operador AND (historia Y roma) y es maacutes

aplica por defecto un operador NEAR decreciente NEAR busca paacuteginas en las que

aparezca historia y tambieacuten roma con una o maacutes palabras de separacioacuten entre

ambos conceptos El nuacutemero de palabras se regula por 123 etc copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

27

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 9: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

9

el orden en que se describen

ldquo rdquo emplear las comillas expresa que debe aparecer la frase exacta y en el

mismo orden

Ejemplo ldquocomparacioacuten de agentes inteligentesrdquo tiene que aparecer esta frase

en los documentos para que sean recuperados

1122 Operadores posicionales absolutos

Se trata de operadores que permiten buscar el o los teacuterminos en un lugar

determinado del documento En general son operadores delimitadores de un

campo

Link recupera todos los links que contenga el teacutermino buscado

Ejemplo Linkldquoagentes inteligentesrdquo recupera todos los links que contenga la

frase exacta agentes inteligentes

Title recupera en los tiacutetulos de web correos etc la palabras deseadas

Ejemplo Titleldquoagentes inteligentesrdquo recupera uacutenicamente del tiacutetulo la frase

exacta

Url busca url que contengan los teacuterminos de la ecuacioacuten de buacutesqueda

Ejemplo Urlldquougresrdquo presenta todos las paacuteginas web de la Universidad de

Granada

Body recupera del cuerpo del documento el conjunto de palabras deseadas

Ejemplo Bodyldquoagentes inteligentesrdquo recupera del cuerpo del documento

uacutenicamente la frase exacta de la ecuacioacuten de buacutesqueda

113 Operadores de truncamiento y de liacutemitecomparacioacuten

Operadores de comparacioacuten o de rango Limitan la buacutesqueda mediante una

expresioacuten que establece un rango de valores especialmente numeacutericos

Corresponden a formas tipo ldquoigual querdquo(simbolizado por = EQ) ldquomayor

querdquo (simbolizado por gt GT) ldquomenor querdquo( simbolizado por lt LT) o

operadores de inteacutervalos (simbolizado por un guioacuten to gtlt)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

10

Operadores de truncamiento o maacutescaras Los truncamientos ayudan a

buscar todas las posibilidades semaacutenticas de un teacutermino por ejemplo sus

derivados fijados por prefjiacioacuten o sufijacioacuten las variantes leacutexicas Asiacute los

llamados caracteres comodiacuten como el asterisco () o la interrogacioacuten ()

sustituyen un caraacutecter o un conjunto de caracteres

Ejemplo document recupera todas las palabras que contengan esta raiz

por ejemplo documento documentos documentalista documentado etc

12 Las herramientas de recuperacioacuten de informacioacuten web

En Espantildea existen diferentes imprecisiones terminoloacutegicas a este respecto Por un

lado a los motores de buacutesqueda se les ha denominado con otros teacuterminos

sinoacutenimos tales como buscadores rastreadores webcrawlers agentes iacutendices

directorios Por otro durante cierto tiempo se han confundido tres tecnologiacuteas que

ahora tienen autonomiacutea propia los iacutendices temaacuteticosdirectorios los motores de

buacutesqueda y los agentes inteligentes

En principio la diferencia entre motor de buacutesqueda e iacutendice temaacutetico o directorio

parece clara Un iacutendice temaacutetico es una paacutegina web (sitio web) en donde las

distintas materias se encuentran organizadas en torno a un conjunto de epiacutegrafes

Esta diferencia se tambalea cuando nos encontramos con iacutendices temaacuteticos como

Yahoo (wwwyahoocom) que presenta un interfaz similar a los motores e incluso

permite realizar buacutesquedas sobre los recursos que tiene sistematizados En general

la diferencia radica en el hecho de que los iacutendices temaacuteticos contienen direcciones

que son recopiladas organizadas y clasificadas manualmente y la buacutesqueda se lleva

a cabo exclusivamente sobre los recursos indexados del directorio

Los agentes inteligentes pueden realizar una serie de tareas sin que los humanos u

otros agentes les tengan que decir queacute hacer a cada paso que dan en su camino

Se diferencian de los motores de buacutesqueda en que eacutestos albergan contenidos

estaacuteticos (aunque se actualizan con cierta frecuencia) y responden directamente a

las peticiones de los usuarios Si un motor de buacutesqueda pudiera almacenar

peticiones de los usuarios y notificarles la llegada de informacioacuten uacutetil entonces el

motor de buacutesqueda seriacutea un agente Sin embargo la diferenciacioacuten no es

radicalmente clara puesto que se denominan agentes inteligentes a softwares que

realmente no lo son

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

11

121 Tipos de herramientas de buacutesqueda y recuperacioacuten

A continuacioacuten se presenta una definicioacuten estaacutendar de cada una de las herramientas

de buacutesqueda y recuperacioacuten de informacioacuten mencionadas anteriormente

1211 Los directorios o iacutendices temaacuteticos

Los directorios o iacutendices presentan una seleccioacuten de recursos webs organizados

siguiendo una estructura o clasificacioacuten jeraacuterquica de materias que va de categoriacuteas

maacutes amplias a categoriacuteas maacutes especiacuteficas Los directorios se exploran mediante la

navegacioacuten (browsing) de una base de datos de documentos web compilados

recogidos y organizados manualmente por expertos (ayudados por robots de

localizacioacuten automaacutetica de recursos en la red) La buacutesqueda jeraacuterquica sirve al

usuario de guiacutea permitiendo acceder a la informacioacuten en el contexto temaacutetico al

que pertenece y en relacioacuten a otras aacutereas temaacuteticas

Los directorios tambieacuten presentan un motor de buacutesqueda interno para localizar

directamente recursos de la base de datos mediante diferentes ecuaciones de

buacutesqueda y palabras clave obviando de esta manera el uso del directorio temaacutetico

Los sistemas de buacutesqueda por palabras pueden actuar de dos maneras

Sobre la clasificacioacuten en una seccioacuten de ella (cuando por ejemplo

sabemos en queacute parte del directorio podemos localizar la informacioacuten

que nos interesa)

Sobre las paacuteginas pero en este caso se limitan a la informacioacuten

recopilada por el iacutendice (fundamentalmente sitios web no paacuteginas)

Asiacute pues la buacutesqueda de informacioacuten en los directorios puede hacerse bien de

forma guiada mediante clasificaciones jeraacuterquicas bien a partir de teacuterminos

especiacuteficos

Los directorios maacutes comunes son aquellos que ofrecen una navegacioacuten por temas

y con una cobertura generalista como por ejemplo Yahoo (Yet Another

Hierarchical Officious Oracle) Sin embargo tambieacuten existen directorios que

permiten por ejemplo una navegacioacuten geograacutefica (Virtual Tourist

httpwwwvirtualtouristcom ) o directorios especializados

Los servicios de consulta basados en directorios han ido incorporando prestaciones

y han evolucionado hacia lo que actualmente se llaman portales un conjunto de

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

12

servicios que pretende satisfacer todas las necesidades de los usuarios de Internet

(cuentas de correo electroacutenico chat paacuteginas amarillas y blancas informacioacuten

metereoloacutegica y de la bolsa servicio de noticias)

1212 Los motores de buacutesqueda

Los motores de buacutesqueda o buscadores tienen sus antecedentes en los simples

listados de direcciones de recursos y documentos de la red y son la respuesta al

raacutepido volumen de crecimiento dela red que supera la capacidad de los recursos

humanos de los directorios ndash que por ello suelen ser selectivos - Los buscadores

son bases de datos creadas por indizacioacuten automaacutetica del texto completo de las

paacuteginas web y realizada por un programa llamado robot Este robot loacutegico o

arantildea (spider) explora de forma automaacutetica los servidores extrayendo las palabras

maacutes significativas de cada paacutegina y creando un iacutendice de buacutesqueda Aun cuando

los programas lleguen a ser similares no existen dos programas de buacutesqueda

exactamente similares en teacuterminos de tamantildeo velocidad y contenido no existen

dos motores de buacutesqueda que utilicen coincidentemente el mismo listado de

relevancia y tampoco cada motor de buacutesqueda ofrece las mismas opciones de

buacutesqueda Por lo tanto su buacutesqueda resultaraacute diferente en cada motor utilizado La

diferencia podriacutea no ser mucha pero siacute significativa

Existe una gran porcioacuten de la red que las ldquoarantildeasrdquo de los buscadores no pueden o

no alcanzan a indizar Se las nombra como la Red Invisible o la Red profunda e

incluye entre otras cosas sitios protegidos por contrasentildeas documentos detraacutes de

ldquocortinas de fuegordquo material archivado herramientas interactivas y los contenidos

de ciertas bases de datos

Los servicios de consulta basados en directorios y motores de buacutesqueda han ido

incorporando prestaciones y han evolucionado hacia lo que actualmente se llaman

portales un conjunto de servicios que pretende satisfacer todas las necesidades de

los usuarios de Internet (cuentas de correo electroacutenico chat paacuteginas amarillas y

blancas informacioacuten metereoloacutegica y de la bolsa servicio de noticias)

1213 Los agentes inteligentes

Un agente es una entidad autoacutenoma capaz de almacenar conocimiento sobre siacute

misma y sobre su entorno con unos objetivos y capacidad Asimismo 8n agente

inteligente es un programa que basaacutendose en su propio conocimiento realiza un

conjunto de operaciones para satisfacer las necesidades de un usuario o de otro

programa bien por iniciativa propia o porque alguno de estos se lo requiere

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

13

Seguacuten las leyes de la inteligencia artificial debe de tener las siguientes

caracteriacutesticas

Autonomiacutea Debe actuar sin ninguacuten tipo de intervencioacuten humana directa

y tener control sobre sus propios actos

Sociabilidad Comunicatividad Debe de ser capaz de comunicarse

mediante un lenguaje comuacuten con otros agentes e incluso con los

humanos

Capacidad de reaccioacuten Percibe su entorno y reaccionar para adaptarse a

eacutel (por ejemplo ante una palabra mal escrita determinar queacute es a traveacutes

del contexto)

Iniciativa Emprende las acciones necesarias para resolver un problema

Tipologiacuteas de herramientas de segunda generacioacuten (agentes inteligentes)

Clientes z3950 Permiten la consulta simultaacutenea de un elevado nuacutemero de

servidores mediante un uacutenico protocolo es decir un uacutenico interfaz y

lenguaje de interrogacioacuten Es especialmente uacutetil en recuperar la informacioacuten

que se encuentra en la llamada ldquoInternet invisiblerdquo informacioacuten que no es

indizada por los motores de buacutesqueda ndash por ejemplo las bases de datos -

Volcadores Permiten volcar automaacuteticamente una copia ideacutentica de sedes

directorios y documentos manteniendo su estructura y sus elementos ndash

incluso los enlaces - y creando asiacute un archivo offline Se puede programar

la hora del volcado reduciendo considerablemente el tiempo y el coste y

permite activar el vuelco de diferentes tipos especiales de documentos (

html doc pdf gif )

Mutibuscadores o metabuscadores Permiten realizar la recuperacioacuten de la

informacioacuten en varios motores de buacutesqueda simultaacuteneamente A diferencia

de los multibuscadores de primera generacioacuten la mayoriacutea de las tareas

pueden automatizarse y son muy flexibles en su configuracioacuten traducen

expresiones en lenguaje natural enviacutean los perfiles a varios motores de

buacutesqueda y procesan los resultados eliminando los duplicados y ordenando

los contenidos seguacuten criterios y formatos definibles

Trazadores Permiten la buacutesqueda en las paacuteginas enlazadas desde una

paacutegina web determinada o desde una lista de resultados de un buscador

Desde esta primera sede llamada ldquosemillardquo y aprovechando la naturaleza

hipertextual de Internet van comprobaacutendose las paacuteginas que se encuentran

enlazadas seguacuten una serie de criterios de pertinencia y asiacute sucesivamente

hasta un nivel prefijado Aunque generan mucho ruido y es una teacutecnica

lenta permite recuperar informacioacuten que es imposible de localizar para los

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

14

buscadores

Indizadores Permiten indizar y resumir automaacuteticamente diferentes paacuteginas

web y exportar los resultados en diferentes formatos reutilizables por

editores web

Mapeadores Describen iacutentegramente una sede detallando cada fichero y

directorio y proporcionando un mapa de contenidos Permiten obtener

datos numeacutericos que ayudan a evaluar dichos contenidos y establecer una

comparativa entre diferentes sedes web ndash en base a valores como el

tamantildeo la densidad hipermedia de la sede su estructura de niveles la

tipologiacutea de enlaces etc

122 Funcionamiento de los motores de buacutesqueda

Un motor de buacutesqueda estaacute formado por cuatro elementos baacutesicos

1 Un programa (tambieacuten denominado robot rastreador o webcrawler) que recorre

el WWW buscando recursos de informacioacuten y sus respectivas URLs

2 Un sistema automaacutetico de anaacutelisis de contenidos e indexacioacuten de los

documentos localizados por el robot

3 Un sistema de interrogacioacuten generalmente basado en la loacutegica booleana que

permite al usuario expresar su necesidad de informacioacuten

4 Un programa que actuacutea de pasarela entre el servidor de documentos html y la

base de datos

Funcionamiento el motor de buacutesqueda recibe la consulta del usuario (query)

formada por uno o maacutes teacuterminos realiza una consulta interna en la base de datos

que contiene los recursos web indexados y ofrece una lista de aquellos recursos que

cumplen una parte o el total de los requisitos establecidos en la consulta

Generalmente los resultados aparecen ordenados seguacuten una puntuacioacuten (score)

que el programa asocia automaacuteticamente a cada recurso

Para realizar una consulta es necesario tener en cuenta un conjunto de variables

1 Lenguaje de interrogacioacuten que debe ofrecer diferentes tipos de operadores

loacutegicos de comparacioacuten de truncamiento de proximidad de especificacioacuten de

campo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

15

2 Posibilidad de refinar (refine) una buacutesqueda inicial

3 Campos limitadores que nos permitan reducir la buacutesqueda dominios lenguas

paiacuteses fecha de creacioacuten del recurso

4 Buacutesquedas alternativas buacutesqueda simple buacutesqueda avanzada buacutesquedas

combinando operadores e iacutendices temaacuteticos etc

5 Opciones avanzadas buscar diferentes recursos (texto sonido imagen)

guardar y reutilizar buacutesquedas diferentes formatos en los resultados de

buacutesqueda (estaacutendard detallado compacto etc) buacutesqueda de conceptos

relacionados (related topics) consulta directa en bases de datos (infranets)

etc

123 Los metabuscadores

La gran cantidad de informacioacuten y el notable aumento de motores de buacutesqueda

accesibles desemboca en la necesidad de realizar consultas simultaacuteneas en

diferentes motores de buacutesqueda y con una sola estrategia (query) De esta

necesidad surgen los denominados ldquometabuscadoresrdquo que ofrecen nuevas

prestaciones y mejores y maacutes exhaustivos resultados de buacutesqueda

Los metabuscadores permiten automatizar el proceso de realizar una misma

consulta en diversos motores de buacutesqueda lo cual no significa que sea totalmente

exhaustivo puesto que el metabuscador enviacutea la consulta solamente a aquellos

motores de buacutesqueda con los que ha establecido un acuerdo previo

En el funcionamiento de los metabuscadores cabe destacar algunas variables

interesantes Por una lado la exhaustividad no estaacute garantizada (desde el

momento en el que sabemos que un motor de buacutesqueda es capaz de indexar a lo

sumo un 30 de los recursos web disponibles) Por otro los tiempos de respuesta

pueden ser mucho maacutes largos dada la necesidad de realizar muacuteltiples buacutesquedas

simultaacuteneas (Metacrawler permite delimitar el tiempo maacuteximo de espera de 1 a 10

minutos) ademaacutes la recuperacioacuten de recursos duplicados suele ser muy elevada

por ello algunos metabuscadores ya han implementado la utilidad que permite

eliminar los duplicados

124 Tendencia actual de los motores de buacutesqueda

Partiendo de los problemas actuales que presentan los motores de buacutesqueda en

cuanto a su funcionamiento y los resultados ofrecidos se pueden adelantar algunas

viacuteas de solucioacuten futura que marcan la tendencia en la evolucioacuten de los motores de

buacutesqueda

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

16

Los resultados de la buacutesqueda pueden ser satisfactorios o no tanto Los motores de

buacutesqueda ofrecen resultados muy diferentes ante una misma cuestioacuten inicial este

hecho demuestra la poca exhaustividad de los motores en la indexacioacuten de los

recursos web y pone de manifiesto los problemas derivados de la escasez de control

linguumliacutestico

Actualmente se aboga por la incorporacioacuten de herramientas de anaacutelisis linguumliacutestico y

control terminoloacutegico en los motores de buacutesqueda de forma que sea posible

efectuar una recuperacioacuten menos ligada a la comparacioacuten de cadenas de caracteres

y maacutes vinculada a la comparacioacuten de conceptos

La escasa calidad de la informacioacuten recuperada es otro inconveniente de los

actuales motores de buacutesqueda Los mecanismos para aumentar la precisioacuten en la

buacutesqueda (refinamientos buacutesquedas avanzadas acotacioacuten por dominios etc) a

veces no funcionan como cabriacutea esperar A ello hay que antildeadir el miacutenimo valor de

algunos de los sitios web recuperados el porcentaje de recursos repetidos y el

porcentaje de recursos inactivos (que ya no existen fiacutesicamente en la red aunque

continuacutean indexados)

En este sentido se empieza a hablar de una Internet para el gran puacuteblico y una

Internet de los recursos culturales cientiacuteficos y teacutecnicos La especializacioacuten de los

motores de buacutesqueda es una buena viacutea para conseguir mejores servicios de

informacioacuten la especializacioacuten conduce a la concentracioacuten del conocimiento en

ciertos lugares donde los usuarios pueden encontrar faacutecilmente los recursos

relacionados con su aacutembito de conocimiento

13 La Infranet o Internet invisible

La infranet o Internet invisible es el conjunto de recursos accesibles uacutenicamente a

traveacutes de alguacuten tipo de pasarela o formulario web y que por tanto no pueden ser

indizados de forma estructural por los robots de los motores de buacutesqueda

Muchos de estos recursos son de gran calidad y desde el punto de vista del gestor

de informacioacuten tienen una importancia clave en la recuperacioacuten de informacioacuten de

alto valor antildeadido Su invisibilidad para los motores de buacutesqueda implica una

dificultad considerable para la recuperacioacuten efectiva de estos recursos y requiere

aproximaciones novedosas por parte de los profesionales

131 Los recursos de la Internet invisible

La propia heterogeneidad formal de la informacioacuten en Internet puede plantear

dificultades a la hora de entender queacute recursos estaacuten incluido bajo la denominacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

17

de Internet Invisible Con el fin de clarificar queacute contenidos pueden resultar

invisibles se ha considerado una clasificacioacuten que atiende a criterios documentales

Bases de datos bibliograacuteficas se incluyen en este grupo los cataacutelogos de

biblioteca accesibles a traveacutes de una pasarela (OPAC) web otras bases de datos de

referencias bibliograacuteficas (de acceso puacuteblico o restringido ndashregistro previo gratuito o

de pago-) y entidades similares tales como los cataacutelogos de libreriacuteas (ej

Amazoncom)

Bases de datos alfanumeacutericas definidas por exclusioacuten del grupo anterior son

todas las bases de datos que no tienen caraacutecter bibliograacutefico Comprenderiacutea

ademaacutes los recursos llamados de referencia que requiren alguacuten tipo de pasarela de

acceso para su consulta (ej Encyclopaedia Britannica)

Una situacioacuten ligeramente distinta es la planteada por las paacuteginas generadas

dinaacutemicamente (asp jsp php o similares) Dichas paacuteginas soacutelo existen en virtud de

una consulta puntual imposible de realizar por los robots de los motores de

buacutesqueda y cuyo contenido puede alcanzar un considerable grado de

personalizacioacuten Desde un punto de vista documental los contenidos que explotan

estaacuten en una base de datos y por tanto se consideran dentro de esta categoriacutea

Archivos y revistas electroacutenicas se trata de bases de datos que incluyen

documentos a texto completo y que soacutelo se pueden recuperar previa identificacioacuten

de la referencia labor para la que se requiere utilizar una pasarela web simple

(formulario de consulta) o doble (palabra de acceso y formulario de consulta)

Ficheros no HTML o textuales el (relativo) fracaso de HTML original a la hora de

generar paacuteginas con una maquetacioacuten muy rica ha permitido que algunos formatos

de disentildeo maacutes elaborado hayan adquirido popularidad en la web (pdf ps ppt doc)

Estos formatos no textuales no son indizados correctamente por los robots de los

motores de buacutesqueda (excepcioacuten Googlecom ya indiza documentos pdf y los

convierte en HTML) y por tanto constituyen una parte del webespacio invisible que

ha ido adquiriendo cada vez maacutes importancia

132 La recuperacioacuten de la informacioacuten en la Internet invisible

La recuperacioacuten de la informacioacuten en la Internet invisible se apoya

fundamentalmente en la disponibilidad de directorios e iacutendices que identifiquen y

organicen su principales recursos El maacutes importante en el mercado espantildeol es la

sede espantildeola de Internet Invisible httpwwwinternetinvisiblecom

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

18

Las herramientas maacutes importantes para la recuperacioacuten de estos recursos de

informacioacuten invisibles son

Clientes Z3950 La progresiva adopcioacuten del protocolo Z3950 por la mayoriacutea de

las bibliotecas estaacute incrementando el valor de los clientes Z3950 que ya pueden

acceder a una masa criacutetica de recursos

Bookwhere 2000 Sea Change (wwwbookwherecom)

EzCat BookSystems (wwwbooksyscomezcat)

ZNavigator EnWare (wwwenwarees)

ZSearch Infoworks Technology (wwwitcompanycom)

ZPista Ifgenia Plus (wwwifigeniaeszeta)

Agentes inteligentes estos programas se han convertido en herramientas muy

populares en Internet que permiten superar algunos de los problemas

tradicionalmente asociados a los motores de buacutesqueda No todos los agentes

ofrecen acceso a recursos de la Internet invisible e incluso aquellos que asiacute lo hacen

lo presentan como opciones avanzadas normalmente no disponibles en las

versiones ldquosharewarerdquo

BullsEye Intelliseek (wwwintelliseekcom)

Copernic Copernic (wwwcoperniccom)

EZSearch American Systems (wwwamericansyscom)

LexiBot BrightPlanet (wwwlexibotcom)

WebSeeker Blue Squirrel (wwwbluesquirrelcom)

14 Bibliografiacutea

Aguillo Cantildeo Isidro (1999) Del multibuscador al metabuscador las agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

19

trazadores de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten

y la organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada p239-245

Aguillo Cantildeo Isidro (2001) Internet invisible o Infranet definicioacuten clasificacioacuten y

evaluacioacuten En Maldonado Martiacutenez Angeles La informacioacuten especializada en

Internet Madrid CSIC p 161-178

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I Information

World en Espantildeol vol 6 nordm 5 p 22-26

Codina Lluis (2003) Internet invisible y web semaacutentica iquestel futuro de los sistemas

de informacioacuten en liacutenea Revista tradumaacutetica nordm 2 2003

Cornella Alfons (2001) Mensaje 364 de Extra-Net la revista de infonomiacutea La

infranet iquestdoacutende esta el valor

Fernaacutendez de las Heras Joseacute Manuel Diacuteaz de Cerio Pako (2000) La Intranet del

conocimiento IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del

Conocimiento retos y soluciones de los profesionales de la informacioacuten Bilbao 19-

20-21 octubre 2000 p 567-574

Goacutemez Diacuteaz Raquel (2003) La evaluacioacuten en recuperacioacuten de la informacioacutenraquo

Hipertextnet nordm 1 (mayo 2003) httpwwwhipertextnetwebpag238htm

Marcos Mora Mariacutea del Carmen (2005) Elementos visuales en sistemas de

buacutesqueda y recuperacioacuten de la informacioacuten Hipertextnet nordm 3 (mayo 2005)

httpwwwhipertextnetwebpag257htm

Martiacutenez Francisco J Rodriacuteguez Muntildeoz Joseacute Vicente (2004) Reflexiones sobre la

evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesidad utilidad y

viabilidad Anales de documentacioacuten nuacutem 7 (2004) p 153-170

httpwwwumesfccdanalesad07ad0710pdf

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada 1999)

La representacioacuten y la organizacioacuten del conocimiento en sus distintas perspectivas

su influencia en la recuperacioacuten de informacioacuten Granada Isko Universidad de

Granada p 247-248

Vaquero JR (1997) Motores de buacutesqueda Information World en Espantildeol vol 6

nordm 7-8 p 31-32

Vidal Bordeacutes Francisco Javier Salvador Olivaacuten Joseacute Antonio (2000) La

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

20

implementacioacuten de metadatos y Dublin Core en sedes y paacuteginas web de bibliotecas

y centros de documentacioacuten de universidades y centros de investigacioacuten de la Red

IRIS IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del Conocimiento

retos y soluciones de los profesionales de la informacioacuten Bilbao 19-20-21 octubre

2000 p 197-210

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

21

15 Casos praacutecticos

151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda

PRESENTACIOacuteN

La recuperacioacuten del conocimiento mediante la utilizacioacuten de motores de buacutesqueda

es muy heterogeacutenea Cada motor indexa y recupera de una forma diferente Por

tanto es importante tener unos paraacutemetros para poder evaluar queacute motores de

buacutesqueda son los maacutes adecuados ante una necesidad de informacioacuten

OBJETIVOS

Conocer el funcionamiento de los motores de buacutesqueda

Utilizar una metodologiacutea para la evaluacioacuten de motores de buacutesqueda

ENUNCIADO

El estudiante deberaacute evaluar 3 motores de buacutesqueda de aacutembito internacional para

ello usaraacute una estrategia de buacutesqueda que aplicaraacute en los 3 motores

preseleccionados de forma que puedan apreciarse claramente las diferencias entre

eacutestos

Motores de buacutesqueda Googlecom Yahoocom Altavistacom

Estrategia de buacutesqueda digital libraries

Las caracteriacutesticas que pueden presentar los diferentes motores de buacutesqueda se

van a agrupar en tres apartados recogida de la informacioacuten buacutesqueda y

recuperacioacuten de la informacioacuten y presentacioacuten de los resultados

Recogida de informacioacuten En este apartado hay que determinar si el robot

es capaz de identificar las etiquetas ldquoMETArdquo de los documentos HTML y

extraer informacioacuten de las mismas para ser usada en la buacutesqueda o

presentacioacuten de resultados

Buacutesqueda Las caracteriacutesticas baacutesicas que un motor de buacutesqueda debe

cumplir desde el punto de vista de la recuperacioacuten de la informacioacuten son las

siguientes

o Formularios de buacutesqueda posibilidad de elegir entre simple o

avanzado

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

22

o Herramientas de buacutesqueda posibilidad de utilizar operadores

booleanos (AND OR NOT) pareacutentesis comillas para los teacuterminos

compuestos o frases y finalmente posibilidad de truncado en

palabras derivadas

o Clasificacioacuten temaacutetica existencia de un iacutendice general para aquellos

que no saben concretar su tema de buacutesqueda

o Campos de buacutesqueda posibilidad de limitar la buacutesqueda a campos

determinados tales como Tiacutetulo URL Descripcioacuten Palabras Clave

Localizacioacuten e Idioma

o Control del vocabulario descubrir si el motor dispone de alguna

herramienta para eliminar sinonimias y polisemias etc

o Deteccioacuten de novedades posibilidad de diferenciar los nuevos

recursos incorporados

Resultados Hay que tener en cuenta si el motor de buacutesqueda permite

elegir entre diferentes formatos de presentacioacuten de los resultados asiacute como

diversos criterios de ordenacioacuten

FORMATO

El establecido en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

23

CUADRO PARA LA EVALUACIOacuteN DE MOTORES DE BUacuteSQUEDA

Recogida de

informacioacuten

Buacutesqueda y Recuperacioacuten de Informacioacuten

Resultados

Formularios

Herramientas de buacutesqueda

Clasif

Campos de buacutesqueda

Format

Orden

MOTORES

Metadata No

Metadata

Simple Avanz

OR

AND

NOT

( )

ldquo ldquo

Tiacutet

URL

Desc

Keyw

Loc

Leng

Control

Vocab

Nov

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

24

152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda

PRESENTACIOacuteN

Una organizacioacuten ha destinado una partida presupuestaria para aumentar la

presencia web del ayuntamiento e implementar servicios y productos de

informacioacuten interactivos para los ciudadanos

Los departamentos de Informaacutetica Documentacioacuten y Comunicacioacuten estaacuten

colaborando en el proceso de compra de nuevo software que permita implementar

estas prestaciones y sea compatible con el back-office de la organizacioacuten

En la proacutexima reunioacuten se va a decidir queacute software para la implementacioacuten de un

motor de buacutesqueda en la Intranet y sitio web del ayuntamiento se va a adquirir

OBJETIVOS

Conocer las caracteriacutesticas de los principales software del mercado para la

implentacioacuten de tecnologiacutea pull para la recuperacioacuten de la informacioacuten

Presentar una aplicacioacuten praacutectica de la gestioacuten del conocimiento

(recuperacioacuten) en un entorno web

Evaluar un paquete de software con relacioacuten a unos criterios teacutecnicos y

metodoloacutegicos preestablecidos

ENUNCIADO

El estudiante es la persona que representa al Departamento de Documentacioacuten en

esta reunioacuten y debes presentar tu propuesta del paquetes de software que maacutes se

adapta a los requerimientos de la organizacioacuten

Los requerimientos establecidos en la reunioacuten anterior son

Software compatible con el Sistema de Informacioacuten del ayuntamiento

Oracle portal sobre UNIX Bases de datos Access y SQL Server JSP y

Dreamweaver Ultradev

Software compatible con cualquier plataforma web Intranet sitio web CD-

ROM DVD

Indexacioacuten de materiales diversos HTML XML asp php pdf doc etc

Entorno usable y familiar para el usuario interno y externo

Opciones de buacutesqueda avanzada operadores booleanos truncamiento

limitaciones de campo y otros

Indexacioacuten de paacuteginas HTML y de texto en varios idiomas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

25

FORMATO

El formato debe centildeirse a los siguientes apartados

1 Metodologiacutea de la evaluacioacuten [el estudiante debe enunciar las fuentes

consultadas y el conjunto de los paquetes de software analizados]

2 Evaluacioacuten del software [el estudiante debe recopilar la siguiente informacioacuten

del paquetes de software seleccionados]

Nombre del SW

Precio

Requerimientos que cumple

Compatibilidad con el sistema de informacioacuten

Compatibilidad con diferentes plataformas web

Indexacioacuten de materiales diversos

Usabilidad del entorno

Opciones de buacutesqueda

Idiomas

3 Propuesta del Departamento de Documentacioacuten[el estudiante debe comentar

algunos puntos a favor yo en contra del software propuesto como opcioacuten 1]

RECURSOS

Sullivan Danny Search Engine Software for your web site

SearchEngineWatchcom Sept 16 2002 (Consultado el 23-05-2006)

httpsearchenginewatchcomresourcessoftwarehtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

26

16 Anexo Introduccioacuten a Google

Presentacioacuten

Internet es una extensa red de documentos de muacuteltiples formatos desde paacuteginas

web en html a documentos de distintos tipos como puedan ser textos imaacutegenes

archivos de sonido o de viacutedeo etc Cuando necesitas buscar cierta informacioacuten en

Internet lo maacutes eficaz es utilizar un buscador ya que estas herramientas disponen

de robots que rastrean la web en busca de informacioacuten e indexan los documentos

seguacuten sus formatos y contenidos de tal forma que muestran a sus usuarios los

documentos relevantes con los criterios de buacutesqueda elegidos

Conocer adecuadamente las propiedades y herramientas de cada buscador nos

puede ayudar a restringir las buacutesquedas a lo que realmente es relevante para

nosotros sin embargo generalmente estos criterios son desconocidos por el

internauta medio ya que se basan en criterios documentales

Google es el buscador maacutes famoso y utilizado realizar una buacutesqueda bien acotada

es necesario incluir el maacuteximo de palabras relevantes para el usuario prestando

especial atencioacuten a los diferentes significados de una palabra Google determina los

resultados por las coincidencias y cercaniacutea de las palabras entre siacute Google tampoco

distingue entre mayuacutesculas y minuacutesculas ni acentos Entrecomillar frases obliga al

buscador a encontrar paacuteginas que tengan esa frase completa

Buacutesqueda sencilla

httpwwwgoogleesintleshelpbasicshtml

iquestQueacute operador booleano utilizan por defecto las buacutesquedas sencillas Pon un

ejemplo

iquestGoogle permite la utilizacioacuten de comodines () para limitar la buacutesqueda Pon un

ejemplo

iquestGoogle diferencia los acentos y las mayuacutesculas y minuacutesculas Pon un ejemplo

Restricciones en la buacutesqueda

httpwwwgoogleesintleshelprefinesearchhtml

iquestCoacutemo se excluye una palabra de una estrategia de buacutesqueda Por ejemplo de la

buacutesqueda [biblioteca arte moderno] queacute debo hacer para excluir la palabra

moderno

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

iquestQueacute debo hacer para buscar una frase por ejemplo [gran hermano]

iquestCoacutemo puedo buscar noticias sobre la guerra de Irak soacutelo en el sitio web del

Elmundoes Especifica la estrategia de buacutesqueda

Buacutesqueda avanzada

httpwwwgoogleesadvanced_searchhl=es

Los buscadores de internet han superado ampliamente las claacutesicas posibilidades de

filtrado de preguntas basadas en el aacutelgebra booleana (operadores Y NO O en

ingleacutes AND OR y NOT) Por ejemplo google descarta por defecto el operador

booleano OR (historia O roma) asumiendo que su base de datos es tan grande

que o intenta ser muy especiacutefico o el resultado obtenido en una consulta de este

tipo tendraacute demasiado ruido esto saldraacuten demasiadas respuestas Aun asiacute nos

permite utilizarlo a voluntad en su buacutesqueda avanzada

Asiacute google busca por defecto con el operador AND (historia Y roma) y es maacutes

aplica por defecto un operador NEAR decreciente NEAR busca paacuteginas en las que

aparezca historia y tambieacuten roma con una o maacutes palabras de separacioacuten entre

ambos conceptos El nuacutemero de palabras se regula por 123 etc copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

27

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 10: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

10

Operadores de truncamiento o maacutescaras Los truncamientos ayudan a

buscar todas las posibilidades semaacutenticas de un teacutermino por ejemplo sus

derivados fijados por prefjiacioacuten o sufijacioacuten las variantes leacutexicas Asiacute los

llamados caracteres comodiacuten como el asterisco () o la interrogacioacuten ()

sustituyen un caraacutecter o un conjunto de caracteres

Ejemplo document recupera todas las palabras que contengan esta raiz

por ejemplo documento documentos documentalista documentado etc

12 Las herramientas de recuperacioacuten de informacioacuten web

En Espantildea existen diferentes imprecisiones terminoloacutegicas a este respecto Por un

lado a los motores de buacutesqueda se les ha denominado con otros teacuterminos

sinoacutenimos tales como buscadores rastreadores webcrawlers agentes iacutendices

directorios Por otro durante cierto tiempo se han confundido tres tecnologiacuteas que

ahora tienen autonomiacutea propia los iacutendices temaacuteticosdirectorios los motores de

buacutesqueda y los agentes inteligentes

En principio la diferencia entre motor de buacutesqueda e iacutendice temaacutetico o directorio

parece clara Un iacutendice temaacutetico es una paacutegina web (sitio web) en donde las

distintas materias se encuentran organizadas en torno a un conjunto de epiacutegrafes

Esta diferencia se tambalea cuando nos encontramos con iacutendices temaacuteticos como

Yahoo (wwwyahoocom) que presenta un interfaz similar a los motores e incluso

permite realizar buacutesquedas sobre los recursos que tiene sistematizados En general

la diferencia radica en el hecho de que los iacutendices temaacuteticos contienen direcciones

que son recopiladas organizadas y clasificadas manualmente y la buacutesqueda se lleva

a cabo exclusivamente sobre los recursos indexados del directorio

Los agentes inteligentes pueden realizar una serie de tareas sin que los humanos u

otros agentes les tengan que decir queacute hacer a cada paso que dan en su camino

Se diferencian de los motores de buacutesqueda en que eacutestos albergan contenidos

estaacuteticos (aunque se actualizan con cierta frecuencia) y responden directamente a

las peticiones de los usuarios Si un motor de buacutesqueda pudiera almacenar

peticiones de los usuarios y notificarles la llegada de informacioacuten uacutetil entonces el

motor de buacutesqueda seriacutea un agente Sin embargo la diferenciacioacuten no es

radicalmente clara puesto que se denominan agentes inteligentes a softwares que

realmente no lo son

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

11

121 Tipos de herramientas de buacutesqueda y recuperacioacuten

A continuacioacuten se presenta una definicioacuten estaacutendar de cada una de las herramientas

de buacutesqueda y recuperacioacuten de informacioacuten mencionadas anteriormente

1211 Los directorios o iacutendices temaacuteticos

Los directorios o iacutendices presentan una seleccioacuten de recursos webs organizados

siguiendo una estructura o clasificacioacuten jeraacuterquica de materias que va de categoriacuteas

maacutes amplias a categoriacuteas maacutes especiacuteficas Los directorios se exploran mediante la

navegacioacuten (browsing) de una base de datos de documentos web compilados

recogidos y organizados manualmente por expertos (ayudados por robots de

localizacioacuten automaacutetica de recursos en la red) La buacutesqueda jeraacuterquica sirve al

usuario de guiacutea permitiendo acceder a la informacioacuten en el contexto temaacutetico al

que pertenece y en relacioacuten a otras aacutereas temaacuteticas

Los directorios tambieacuten presentan un motor de buacutesqueda interno para localizar

directamente recursos de la base de datos mediante diferentes ecuaciones de

buacutesqueda y palabras clave obviando de esta manera el uso del directorio temaacutetico

Los sistemas de buacutesqueda por palabras pueden actuar de dos maneras

Sobre la clasificacioacuten en una seccioacuten de ella (cuando por ejemplo

sabemos en queacute parte del directorio podemos localizar la informacioacuten

que nos interesa)

Sobre las paacuteginas pero en este caso se limitan a la informacioacuten

recopilada por el iacutendice (fundamentalmente sitios web no paacuteginas)

Asiacute pues la buacutesqueda de informacioacuten en los directorios puede hacerse bien de

forma guiada mediante clasificaciones jeraacuterquicas bien a partir de teacuterminos

especiacuteficos

Los directorios maacutes comunes son aquellos que ofrecen una navegacioacuten por temas

y con una cobertura generalista como por ejemplo Yahoo (Yet Another

Hierarchical Officious Oracle) Sin embargo tambieacuten existen directorios que

permiten por ejemplo una navegacioacuten geograacutefica (Virtual Tourist

httpwwwvirtualtouristcom ) o directorios especializados

Los servicios de consulta basados en directorios han ido incorporando prestaciones

y han evolucionado hacia lo que actualmente se llaman portales un conjunto de

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

12

servicios que pretende satisfacer todas las necesidades de los usuarios de Internet

(cuentas de correo electroacutenico chat paacuteginas amarillas y blancas informacioacuten

metereoloacutegica y de la bolsa servicio de noticias)

1212 Los motores de buacutesqueda

Los motores de buacutesqueda o buscadores tienen sus antecedentes en los simples

listados de direcciones de recursos y documentos de la red y son la respuesta al

raacutepido volumen de crecimiento dela red que supera la capacidad de los recursos

humanos de los directorios ndash que por ello suelen ser selectivos - Los buscadores

son bases de datos creadas por indizacioacuten automaacutetica del texto completo de las

paacuteginas web y realizada por un programa llamado robot Este robot loacutegico o

arantildea (spider) explora de forma automaacutetica los servidores extrayendo las palabras

maacutes significativas de cada paacutegina y creando un iacutendice de buacutesqueda Aun cuando

los programas lleguen a ser similares no existen dos programas de buacutesqueda

exactamente similares en teacuterminos de tamantildeo velocidad y contenido no existen

dos motores de buacutesqueda que utilicen coincidentemente el mismo listado de

relevancia y tampoco cada motor de buacutesqueda ofrece las mismas opciones de

buacutesqueda Por lo tanto su buacutesqueda resultaraacute diferente en cada motor utilizado La

diferencia podriacutea no ser mucha pero siacute significativa

Existe una gran porcioacuten de la red que las ldquoarantildeasrdquo de los buscadores no pueden o

no alcanzan a indizar Se las nombra como la Red Invisible o la Red profunda e

incluye entre otras cosas sitios protegidos por contrasentildeas documentos detraacutes de

ldquocortinas de fuegordquo material archivado herramientas interactivas y los contenidos

de ciertas bases de datos

Los servicios de consulta basados en directorios y motores de buacutesqueda han ido

incorporando prestaciones y han evolucionado hacia lo que actualmente se llaman

portales un conjunto de servicios que pretende satisfacer todas las necesidades de

los usuarios de Internet (cuentas de correo electroacutenico chat paacuteginas amarillas y

blancas informacioacuten metereoloacutegica y de la bolsa servicio de noticias)

1213 Los agentes inteligentes

Un agente es una entidad autoacutenoma capaz de almacenar conocimiento sobre siacute

misma y sobre su entorno con unos objetivos y capacidad Asimismo 8n agente

inteligente es un programa que basaacutendose en su propio conocimiento realiza un

conjunto de operaciones para satisfacer las necesidades de un usuario o de otro

programa bien por iniciativa propia o porque alguno de estos se lo requiere

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

13

Seguacuten las leyes de la inteligencia artificial debe de tener las siguientes

caracteriacutesticas

Autonomiacutea Debe actuar sin ninguacuten tipo de intervencioacuten humana directa

y tener control sobre sus propios actos

Sociabilidad Comunicatividad Debe de ser capaz de comunicarse

mediante un lenguaje comuacuten con otros agentes e incluso con los

humanos

Capacidad de reaccioacuten Percibe su entorno y reaccionar para adaptarse a

eacutel (por ejemplo ante una palabra mal escrita determinar queacute es a traveacutes

del contexto)

Iniciativa Emprende las acciones necesarias para resolver un problema

Tipologiacuteas de herramientas de segunda generacioacuten (agentes inteligentes)

Clientes z3950 Permiten la consulta simultaacutenea de un elevado nuacutemero de

servidores mediante un uacutenico protocolo es decir un uacutenico interfaz y

lenguaje de interrogacioacuten Es especialmente uacutetil en recuperar la informacioacuten

que se encuentra en la llamada ldquoInternet invisiblerdquo informacioacuten que no es

indizada por los motores de buacutesqueda ndash por ejemplo las bases de datos -

Volcadores Permiten volcar automaacuteticamente una copia ideacutentica de sedes

directorios y documentos manteniendo su estructura y sus elementos ndash

incluso los enlaces - y creando asiacute un archivo offline Se puede programar

la hora del volcado reduciendo considerablemente el tiempo y el coste y

permite activar el vuelco de diferentes tipos especiales de documentos (

html doc pdf gif )

Mutibuscadores o metabuscadores Permiten realizar la recuperacioacuten de la

informacioacuten en varios motores de buacutesqueda simultaacuteneamente A diferencia

de los multibuscadores de primera generacioacuten la mayoriacutea de las tareas

pueden automatizarse y son muy flexibles en su configuracioacuten traducen

expresiones en lenguaje natural enviacutean los perfiles a varios motores de

buacutesqueda y procesan los resultados eliminando los duplicados y ordenando

los contenidos seguacuten criterios y formatos definibles

Trazadores Permiten la buacutesqueda en las paacuteginas enlazadas desde una

paacutegina web determinada o desde una lista de resultados de un buscador

Desde esta primera sede llamada ldquosemillardquo y aprovechando la naturaleza

hipertextual de Internet van comprobaacutendose las paacuteginas que se encuentran

enlazadas seguacuten una serie de criterios de pertinencia y asiacute sucesivamente

hasta un nivel prefijado Aunque generan mucho ruido y es una teacutecnica

lenta permite recuperar informacioacuten que es imposible de localizar para los

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

14

buscadores

Indizadores Permiten indizar y resumir automaacuteticamente diferentes paacuteginas

web y exportar los resultados en diferentes formatos reutilizables por

editores web

Mapeadores Describen iacutentegramente una sede detallando cada fichero y

directorio y proporcionando un mapa de contenidos Permiten obtener

datos numeacutericos que ayudan a evaluar dichos contenidos y establecer una

comparativa entre diferentes sedes web ndash en base a valores como el

tamantildeo la densidad hipermedia de la sede su estructura de niveles la

tipologiacutea de enlaces etc

122 Funcionamiento de los motores de buacutesqueda

Un motor de buacutesqueda estaacute formado por cuatro elementos baacutesicos

1 Un programa (tambieacuten denominado robot rastreador o webcrawler) que recorre

el WWW buscando recursos de informacioacuten y sus respectivas URLs

2 Un sistema automaacutetico de anaacutelisis de contenidos e indexacioacuten de los

documentos localizados por el robot

3 Un sistema de interrogacioacuten generalmente basado en la loacutegica booleana que

permite al usuario expresar su necesidad de informacioacuten

4 Un programa que actuacutea de pasarela entre el servidor de documentos html y la

base de datos

Funcionamiento el motor de buacutesqueda recibe la consulta del usuario (query)

formada por uno o maacutes teacuterminos realiza una consulta interna en la base de datos

que contiene los recursos web indexados y ofrece una lista de aquellos recursos que

cumplen una parte o el total de los requisitos establecidos en la consulta

Generalmente los resultados aparecen ordenados seguacuten una puntuacioacuten (score)

que el programa asocia automaacuteticamente a cada recurso

Para realizar una consulta es necesario tener en cuenta un conjunto de variables

1 Lenguaje de interrogacioacuten que debe ofrecer diferentes tipos de operadores

loacutegicos de comparacioacuten de truncamiento de proximidad de especificacioacuten de

campo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

15

2 Posibilidad de refinar (refine) una buacutesqueda inicial

3 Campos limitadores que nos permitan reducir la buacutesqueda dominios lenguas

paiacuteses fecha de creacioacuten del recurso

4 Buacutesquedas alternativas buacutesqueda simple buacutesqueda avanzada buacutesquedas

combinando operadores e iacutendices temaacuteticos etc

5 Opciones avanzadas buscar diferentes recursos (texto sonido imagen)

guardar y reutilizar buacutesquedas diferentes formatos en los resultados de

buacutesqueda (estaacutendard detallado compacto etc) buacutesqueda de conceptos

relacionados (related topics) consulta directa en bases de datos (infranets)

etc

123 Los metabuscadores

La gran cantidad de informacioacuten y el notable aumento de motores de buacutesqueda

accesibles desemboca en la necesidad de realizar consultas simultaacuteneas en

diferentes motores de buacutesqueda y con una sola estrategia (query) De esta

necesidad surgen los denominados ldquometabuscadoresrdquo que ofrecen nuevas

prestaciones y mejores y maacutes exhaustivos resultados de buacutesqueda

Los metabuscadores permiten automatizar el proceso de realizar una misma

consulta en diversos motores de buacutesqueda lo cual no significa que sea totalmente

exhaustivo puesto que el metabuscador enviacutea la consulta solamente a aquellos

motores de buacutesqueda con los que ha establecido un acuerdo previo

En el funcionamiento de los metabuscadores cabe destacar algunas variables

interesantes Por una lado la exhaustividad no estaacute garantizada (desde el

momento en el que sabemos que un motor de buacutesqueda es capaz de indexar a lo

sumo un 30 de los recursos web disponibles) Por otro los tiempos de respuesta

pueden ser mucho maacutes largos dada la necesidad de realizar muacuteltiples buacutesquedas

simultaacuteneas (Metacrawler permite delimitar el tiempo maacuteximo de espera de 1 a 10

minutos) ademaacutes la recuperacioacuten de recursos duplicados suele ser muy elevada

por ello algunos metabuscadores ya han implementado la utilidad que permite

eliminar los duplicados

124 Tendencia actual de los motores de buacutesqueda

Partiendo de los problemas actuales que presentan los motores de buacutesqueda en

cuanto a su funcionamiento y los resultados ofrecidos se pueden adelantar algunas

viacuteas de solucioacuten futura que marcan la tendencia en la evolucioacuten de los motores de

buacutesqueda

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

16

Los resultados de la buacutesqueda pueden ser satisfactorios o no tanto Los motores de

buacutesqueda ofrecen resultados muy diferentes ante una misma cuestioacuten inicial este

hecho demuestra la poca exhaustividad de los motores en la indexacioacuten de los

recursos web y pone de manifiesto los problemas derivados de la escasez de control

linguumliacutestico

Actualmente se aboga por la incorporacioacuten de herramientas de anaacutelisis linguumliacutestico y

control terminoloacutegico en los motores de buacutesqueda de forma que sea posible

efectuar una recuperacioacuten menos ligada a la comparacioacuten de cadenas de caracteres

y maacutes vinculada a la comparacioacuten de conceptos

La escasa calidad de la informacioacuten recuperada es otro inconveniente de los

actuales motores de buacutesqueda Los mecanismos para aumentar la precisioacuten en la

buacutesqueda (refinamientos buacutesquedas avanzadas acotacioacuten por dominios etc) a

veces no funcionan como cabriacutea esperar A ello hay que antildeadir el miacutenimo valor de

algunos de los sitios web recuperados el porcentaje de recursos repetidos y el

porcentaje de recursos inactivos (que ya no existen fiacutesicamente en la red aunque

continuacutean indexados)

En este sentido se empieza a hablar de una Internet para el gran puacuteblico y una

Internet de los recursos culturales cientiacuteficos y teacutecnicos La especializacioacuten de los

motores de buacutesqueda es una buena viacutea para conseguir mejores servicios de

informacioacuten la especializacioacuten conduce a la concentracioacuten del conocimiento en

ciertos lugares donde los usuarios pueden encontrar faacutecilmente los recursos

relacionados con su aacutembito de conocimiento

13 La Infranet o Internet invisible

La infranet o Internet invisible es el conjunto de recursos accesibles uacutenicamente a

traveacutes de alguacuten tipo de pasarela o formulario web y que por tanto no pueden ser

indizados de forma estructural por los robots de los motores de buacutesqueda

Muchos de estos recursos son de gran calidad y desde el punto de vista del gestor

de informacioacuten tienen una importancia clave en la recuperacioacuten de informacioacuten de

alto valor antildeadido Su invisibilidad para los motores de buacutesqueda implica una

dificultad considerable para la recuperacioacuten efectiva de estos recursos y requiere

aproximaciones novedosas por parte de los profesionales

131 Los recursos de la Internet invisible

La propia heterogeneidad formal de la informacioacuten en Internet puede plantear

dificultades a la hora de entender queacute recursos estaacuten incluido bajo la denominacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

17

de Internet Invisible Con el fin de clarificar queacute contenidos pueden resultar

invisibles se ha considerado una clasificacioacuten que atiende a criterios documentales

Bases de datos bibliograacuteficas se incluyen en este grupo los cataacutelogos de

biblioteca accesibles a traveacutes de una pasarela (OPAC) web otras bases de datos de

referencias bibliograacuteficas (de acceso puacuteblico o restringido ndashregistro previo gratuito o

de pago-) y entidades similares tales como los cataacutelogos de libreriacuteas (ej

Amazoncom)

Bases de datos alfanumeacutericas definidas por exclusioacuten del grupo anterior son

todas las bases de datos que no tienen caraacutecter bibliograacutefico Comprenderiacutea

ademaacutes los recursos llamados de referencia que requiren alguacuten tipo de pasarela de

acceso para su consulta (ej Encyclopaedia Britannica)

Una situacioacuten ligeramente distinta es la planteada por las paacuteginas generadas

dinaacutemicamente (asp jsp php o similares) Dichas paacuteginas soacutelo existen en virtud de

una consulta puntual imposible de realizar por los robots de los motores de

buacutesqueda y cuyo contenido puede alcanzar un considerable grado de

personalizacioacuten Desde un punto de vista documental los contenidos que explotan

estaacuten en una base de datos y por tanto se consideran dentro de esta categoriacutea

Archivos y revistas electroacutenicas se trata de bases de datos que incluyen

documentos a texto completo y que soacutelo se pueden recuperar previa identificacioacuten

de la referencia labor para la que se requiere utilizar una pasarela web simple

(formulario de consulta) o doble (palabra de acceso y formulario de consulta)

Ficheros no HTML o textuales el (relativo) fracaso de HTML original a la hora de

generar paacuteginas con una maquetacioacuten muy rica ha permitido que algunos formatos

de disentildeo maacutes elaborado hayan adquirido popularidad en la web (pdf ps ppt doc)

Estos formatos no textuales no son indizados correctamente por los robots de los

motores de buacutesqueda (excepcioacuten Googlecom ya indiza documentos pdf y los

convierte en HTML) y por tanto constituyen una parte del webespacio invisible que

ha ido adquiriendo cada vez maacutes importancia

132 La recuperacioacuten de la informacioacuten en la Internet invisible

La recuperacioacuten de la informacioacuten en la Internet invisible se apoya

fundamentalmente en la disponibilidad de directorios e iacutendices que identifiquen y

organicen su principales recursos El maacutes importante en el mercado espantildeol es la

sede espantildeola de Internet Invisible httpwwwinternetinvisiblecom

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

18

Las herramientas maacutes importantes para la recuperacioacuten de estos recursos de

informacioacuten invisibles son

Clientes Z3950 La progresiva adopcioacuten del protocolo Z3950 por la mayoriacutea de

las bibliotecas estaacute incrementando el valor de los clientes Z3950 que ya pueden

acceder a una masa criacutetica de recursos

Bookwhere 2000 Sea Change (wwwbookwherecom)

EzCat BookSystems (wwwbooksyscomezcat)

ZNavigator EnWare (wwwenwarees)

ZSearch Infoworks Technology (wwwitcompanycom)

ZPista Ifgenia Plus (wwwifigeniaeszeta)

Agentes inteligentes estos programas se han convertido en herramientas muy

populares en Internet que permiten superar algunos de los problemas

tradicionalmente asociados a los motores de buacutesqueda No todos los agentes

ofrecen acceso a recursos de la Internet invisible e incluso aquellos que asiacute lo hacen

lo presentan como opciones avanzadas normalmente no disponibles en las

versiones ldquosharewarerdquo

BullsEye Intelliseek (wwwintelliseekcom)

Copernic Copernic (wwwcoperniccom)

EZSearch American Systems (wwwamericansyscom)

LexiBot BrightPlanet (wwwlexibotcom)

WebSeeker Blue Squirrel (wwwbluesquirrelcom)

14 Bibliografiacutea

Aguillo Cantildeo Isidro (1999) Del multibuscador al metabuscador las agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

19

trazadores de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten

y la organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada p239-245

Aguillo Cantildeo Isidro (2001) Internet invisible o Infranet definicioacuten clasificacioacuten y

evaluacioacuten En Maldonado Martiacutenez Angeles La informacioacuten especializada en

Internet Madrid CSIC p 161-178

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I Information

World en Espantildeol vol 6 nordm 5 p 22-26

Codina Lluis (2003) Internet invisible y web semaacutentica iquestel futuro de los sistemas

de informacioacuten en liacutenea Revista tradumaacutetica nordm 2 2003

Cornella Alfons (2001) Mensaje 364 de Extra-Net la revista de infonomiacutea La

infranet iquestdoacutende esta el valor

Fernaacutendez de las Heras Joseacute Manuel Diacuteaz de Cerio Pako (2000) La Intranet del

conocimiento IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del

Conocimiento retos y soluciones de los profesionales de la informacioacuten Bilbao 19-

20-21 octubre 2000 p 567-574

Goacutemez Diacuteaz Raquel (2003) La evaluacioacuten en recuperacioacuten de la informacioacutenraquo

Hipertextnet nordm 1 (mayo 2003) httpwwwhipertextnetwebpag238htm

Marcos Mora Mariacutea del Carmen (2005) Elementos visuales en sistemas de

buacutesqueda y recuperacioacuten de la informacioacuten Hipertextnet nordm 3 (mayo 2005)

httpwwwhipertextnetwebpag257htm

Martiacutenez Francisco J Rodriacuteguez Muntildeoz Joseacute Vicente (2004) Reflexiones sobre la

evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesidad utilidad y

viabilidad Anales de documentacioacuten nuacutem 7 (2004) p 153-170

httpwwwumesfccdanalesad07ad0710pdf

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada 1999)

La representacioacuten y la organizacioacuten del conocimiento en sus distintas perspectivas

su influencia en la recuperacioacuten de informacioacuten Granada Isko Universidad de

Granada p 247-248

Vaquero JR (1997) Motores de buacutesqueda Information World en Espantildeol vol 6

nordm 7-8 p 31-32

Vidal Bordeacutes Francisco Javier Salvador Olivaacuten Joseacute Antonio (2000) La

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

20

implementacioacuten de metadatos y Dublin Core en sedes y paacuteginas web de bibliotecas

y centros de documentacioacuten de universidades y centros de investigacioacuten de la Red

IRIS IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del Conocimiento

retos y soluciones de los profesionales de la informacioacuten Bilbao 19-20-21 octubre

2000 p 197-210

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

21

15 Casos praacutecticos

151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda

PRESENTACIOacuteN

La recuperacioacuten del conocimiento mediante la utilizacioacuten de motores de buacutesqueda

es muy heterogeacutenea Cada motor indexa y recupera de una forma diferente Por

tanto es importante tener unos paraacutemetros para poder evaluar queacute motores de

buacutesqueda son los maacutes adecuados ante una necesidad de informacioacuten

OBJETIVOS

Conocer el funcionamiento de los motores de buacutesqueda

Utilizar una metodologiacutea para la evaluacioacuten de motores de buacutesqueda

ENUNCIADO

El estudiante deberaacute evaluar 3 motores de buacutesqueda de aacutembito internacional para

ello usaraacute una estrategia de buacutesqueda que aplicaraacute en los 3 motores

preseleccionados de forma que puedan apreciarse claramente las diferencias entre

eacutestos

Motores de buacutesqueda Googlecom Yahoocom Altavistacom

Estrategia de buacutesqueda digital libraries

Las caracteriacutesticas que pueden presentar los diferentes motores de buacutesqueda se

van a agrupar en tres apartados recogida de la informacioacuten buacutesqueda y

recuperacioacuten de la informacioacuten y presentacioacuten de los resultados

Recogida de informacioacuten En este apartado hay que determinar si el robot

es capaz de identificar las etiquetas ldquoMETArdquo de los documentos HTML y

extraer informacioacuten de las mismas para ser usada en la buacutesqueda o

presentacioacuten de resultados

Buacutesqueda Las caracteriacutesticas baacutesicas que un motor de buacutesqueda debe

cumplir desde el punto de vista de la recuperacioacuten de la informacioacuten son las

siguientes

o Formularios de buacutesqueda posibilidad de elegir entre simple o

avanzado

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

22

o Herramientas de buacutesqueda posibilidad de utilizar operadores

booleanos (AND OR NOT) pareacutentesis comillas para los teacuterminos

compuestos o frases y finalmente posibilidad de truncado en

palabras derivadas

o Clasificacioacuten temaacutetica existencia de un iacutendice general para aquellos

que no saben concretar su tema de buacutesqueda

o Campos de buacutesqueda posibilidad de limitar la buacutesqueda a campos

determinados tales como Tiacutetulo URL Descripcioacuten Palabras Clave

Localizacioacuten e Idioma

o Control del vocabulario descubrir si el motor dispone de alguna

herramienta para eliminar sinonimias y polisemias etc

o Deteccioacuten de novedades posibilidad de diferenciar los nuevos

recursos incorporados

Resultados Hay que tener en cuenta si el motor de buacutesqueda permite

elegir entre diferentes formatos de presentacioacuten de los resultados asiacute como

diversos criterios de ordenacioacuten

FORMATO

El establecido en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

23

CUADRO PARA LA EVALUACIOacuteN DE MOTORES DE BUacuteSQUEDA

Recogida de

informacioacuten

Buacutesqueda y Recuperacioacuten de Informacioacuten

Resultados

Formularios

Herramientas de buacutesqueda

Clasif

Campos de buacutesqueda

Format

Orden

MOTORES

Metadata No

Metadata

Simple Avanz

OR

AND

NOT

( )

ldquo ldquo

Tiacutet

URL

Desc

Keyw

Loc

Leng

Control

Vocab

Nov

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

24

152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda

PRESENTACIOacuteN

Una organizacioacuten ha destinado una partida presupuestaria para aumentar la

presencia web del ayuntamiento e implementar servicios y productos de

informacioacuten interactivos para los ciudadanos

Los departamentos de Informaacutetica Documentacioacuten y Comunicacioacuten estaacuten

colaborando en el proceso de compra de nuevo software que permita implementar

estas prestaciones y sea compatible con el back-office de la organizacioacuten

En la proacutexima reunioacuten se va a decidir queacute software para la implementacioacuten de un

motor de buacutesqueda en la Intranet y sitio web del ayuntamiento se va a adquirir

OBJETIVOS

Conocer las caracteriacutesticas de los principales software del mercado para la

implentacioacuten de tecnologiacutea pull para la recuperacioacuten de la informacioacuten

Presentar una aplicacioacuten praacutectica de la gestioacuten del conocimiento

(recuperacioacuten) en un entorno web

Evaluar un paquete de software con relacioacuten a unos criterios teacutecnicos y

metodoloacutegicos preestablecidos

ENUNCIADO

El estudiante es la persona que representa al Departamento de Documentacioacuten en

esta reunioacuten y debes presentar tu propuesta del paquetes de software que maacutes se

adapta a los requerimientos de la organizacioacuten

Los requerimientos establecidos en la reunioacuten anterior son

Software compatible con el Sistema de Informacioacuten del ayuntamiento

Oracle portal sobre UNIX Bases de datos Access y SQL Server JSP y

Dreamweaver Ultradev

Software compatible con cualquier plataforma web Intranet sitio web CD-

ROM DVD

Indexacioacuten de materiales diversos HTML XML asp php pdf doc etc

Entorno usable y familiar para el usuario interno y externo

Opciones de buacutesqueda avanzada operadores booleanos truncamiento

limitaciones de campo y otros

Indexacioacuten de paacuteginas HTML y de texto en varios idiomas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

25

FORMATO

El formato debe centildeirse a los siguientes apartados

1 Metodologiacutea de la evaluacioacuten [el estudiante debe enunciar las fuentes

consultadas y el conjunto de los paquetes de software analizados]

2 Evaluacioacuten del software [el estudiante debe recopilar la siguiente informacioacuten

del paquetes de software seleccionados]

Nombre del SW

Precio

Requerimientos que cumple

Compatibilidad con el sistema de informacioacuten

Compatibilidad con diferentes plataformas web

Indexacioacuten de materiales diversos

Usabilidad del entorno

Opciones de buacutesqueda

Idiomas

3 Propuesta del Departamento de Documentacioacuten[el estudiante debe comentar

algunos puntos a favor yo en contra del software propuesto como opcioacuten 1]

RECURSOS

Sullivan Danny Search Engine Software for your web site

SearchEngineWatchcom Sept 16 2002 (Consultado el 23-05-2006)

httpsearchenginewatchcomresourcessoftwarehtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

26

16 Anexo Introduccioacuten a Google

Presentacioacuten

Internet es una extensa red de documentos de muacuteltiples formatos desde paacuteginas

web en html a documentos de distintos tipos como puedan ser textos imaacutegenes

archivos de sonido o de viacutedeo etc Cuando necesitas buscar cierta informacioacuten en

Internet lo maacutes eficaz es utilizar un buscador ya que estas herramientas disponen

de robots que rastrean la web en busca de informacioacuten e indexan los documentos

seguacuten sus formatos y contenidos de tal forma que muestran a sus usuarios los

documentos relevantes con los criterios de buacutesqueda elegidos

Conocer adecuadamente las propiedades y herramientas de cada buscador nos

puede ayudar a restringir las buacutesquedas a lo que realmente es relevante para

nosotros sin embargo generalmente estos criterios son desconocidos por el

internauta medio ya que se basan en criterios documentales

Google es el buscador maacutes famoso y utilizado realizar una buacutesqueda bien acotada

es necesario incluir el maacuteximo de palabras relevantes para el usuario prestando

especial atencioacuten a los diferentes significados de una palabra Google determina los

resultados por las coincidencias y cercaniacutea de las palabras entre siacute Google tampoco

distingue entre mayuacutesculas y minuacutesculas ni acentos Entrecomillar frases obliga al

buscador a encontrar paacuteginas que tengan esa frase completa

Buacutesqueda sencilla

httpwwwgoogleesintleshelpbasicshtml

iquestQueacute operador booleano utilizan por defecto las buacutesquedas sencillas Pon un

ejemplo

iquestGoogle permite la utilizacioacuten de comodines () para limitar la buacutesqueda Pon un

ejemplo

iquestGoogle diferencia los acentos y las mayuacutesculas y minuacutesculas Pon un ejemplo

Restricciones en la buacutesqueda

httpwwwgoogleesintleshelprefinesearchhtml

iquestCoacutemo se excluye una palabra de una estrategia de buacutesqueda Por ejemplo de la

buacutesqueda [biblioteca arte moderno] queacute debo hacer para excluir la palabra

moderno

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

iquestQueacute debo hacer para buscar una frase por ejemplo [gran hermano]

iquestCoacutemo puedo buscar noticias sobre la guerra de Irak soacutelo en el sitio web del

Elmundoes Especifica la estrategia de buacutesqueda

Buacutesqueda avanzada

httpwwwgoogleesadvanced_searchhl=es

Los buscadores de internet han superado ampliamente las claacutesicas posibilidades de

filtrado de preguntas basadas en el aacutelgebra booleana (operadores Y NO O en

ingleacutes AND OR y NOT) Por ejemplo google descarta por defecto el operador

booleano OR (historia O roma) asumiendo que su base de datos es tan grande

que o intenta ser muy especiacutefico o el resultado obtenido en una consulta de este

tipo tendraacute demasiado ruido esto saldraacuten demasiadas respuestas Aun asiacute nos

permite utilizarlo a voluntad en su buacutesqueda avanzada

Asiacute google busca por defecto con el operador AND (historia Y roma) y es maacutes

aplica por defecto un operador NEAR decreciente NEAR busca paacuteginas en las que

aparezca historia y tambieacuten roma con una o maacutes palabras de separacioacuten entre

ambos conceptos El nuacutemero de palabras se regula por 123 etc copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

27

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 11: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

11

121 Tipos de herramientas de buacutesqueda y recuperacioacuten

A continuacioacuten se presenta una definicioacuten estaacutendar de cada una de las herramientas

de buacutesqueda y recuperacioacuten de informacioacuten mencionadas anteriormente

1211 Los directorios o iacutendices temaacuteticos

Los directorios o iacutendices presentan una seleccioacuten de recursos webs organizados

siguiendo una estructura o clasificacioacuten jeraacuterquica de materias que va de categoriacuteas

maacutes amplias a categoriacuteas maacutes especiacuteficas Los directorios se exploran mediante la

navegacioacuten (browsing) de una base de datos de documentos web compilados

recogidos y organizados manualmente por expertos (ayudados por robots de

localizacioacuten automaacutetica de recursos en la red) La buacutesqueda jeraacuterquica sirve al

usuario de guiacutea permitiendo acceder a la informacioacuten en el contexto temaacutetico al

que pertenece y en relacioacuten a otras aacutereas temaacuteticas

Los directorios tambieacuten presentan un motor de buacutesqueda interno para localizar

directamente recursos de la base de datos mediante diferentes ecuaciones de

buacutesqueda y palabras clave obviando de esta manera el uso del directorio temaacutetico

Los sistemas de buacutesqueda por palabras pueden actuar de dos maneras

Sobre la clasificacioacuten en una seccioacuten de ella (cuando por ejemplo

sabemos en queacute parte del directorio podemos localizar la informacioacuten

que nos interesa)

Sobre las paacuteginas pero en este caso se limitan a la informacioacuten

recopilada por el iacutendice (fundamentalmente sitios web no paacuteginas)

Asiacute pues la buacutesqueda de informacioacuten en los directorios puede hacerse bien de

forma guiada mediante clasificaciones jeraacuterquicas bien a partir de teacuterminos

especiacuteficos

Los directorios maacutes comunes son aquellos que ofrecen una navegacioacuten por temas

y con una cobertura generalista como por ejemplo Yahoo (Yet Another

Hierarchical Officious Oracle) Sin embargo tambieacuten existen directorios que

permiten por ejemplo una navegacioacuten geograacutefica (Virtual Tourist

httpwwwvirtualtouristcom ) o directorios especializados

Los servicios de consulta basados en directorios han ido incorporando prestaciones

y han evolucionado hacia lo que actualmente se llaman portales un conjunto de

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

12

servicios que pretende satisfacer todas las necesidades de los usuarios de Internet

(cuentas de correo electroacutenico chat paacuteginas amarillas y blancas informacioacuten

metereoloacutegica y de la bolsa servicio de noticias)

1212 Los motores de buacutesqueda

Los motores de buacutesqueda o buscadores tienen sus antecedentes en los simples

listados de direcciones de recursos y documentos de la red y son la respuesta al

raacutepido volumen de crecimiento dela red que supera la capacidad de los recursos

humanos de los directorios ndash que por ello suelen ser selectivos - Los buscadores

son bases de datos creadas por indizacioacuten automaacutetica del texto completo de las

paacuteginas web y realizada por un programa llamado robot Este robot loacutegico o

arantildea (spider) explora de forma automaacutetica los servidores extrayendo las palabras

maacutes significativas de cada paacutegina y creando un iacutendice de buacutesqueda Aun cuando

los programas lleguen a ser similares no existen dos programas de buacutesqueda

exactamente similares en teacuterminos de tamantildeo velocidad y contenido no existen

dos motores de buacutesqueda que utilicen coincidentemente el mismo listado de

relevancia y tampoco cada motor de buacutesqueda ofrece las mismas opciones de

buacutesqueda Por lo tanto su buacutesqueda resultaraacute diferente en cada motor utilizado La

diferencia podriacutea no ser mucha pero siacute significativa

Existe una gran porcioacuten de la red que las ldquoarantildeasrdquo de los buscadores no pueden o

no alcanzan a indizar Se las nombra como la Red Invisible o la Red profunda e

incluye entre otras cosas sitios protegidos por contrasentildeas documentos detraacutes de

ldquocortinas de fuegordquo material archivado herramientas interactivas y los contenidos

de ciertas bases de datos

Los servicios de consulta basados en directorios y motores de buacutesqueda han ido

incorporando prestaciones y han evolucionado hacia lo que actualmente se llaman

portales un conjunto de servicios que pretende satisfacer todas las necesidades de

los usuarios de Internet (cuentas de correo electroacutenico chat paacuteginas amarillas y

blancas informacioacuten metereoloacutegica y de la bolsa servicio de noticias)

1213 Los agentes inteligentes

Un agente es una entidad autoacutenoma capaz de almacenar conocimiento sobre siacute

misma y sobre su entorno con unos objetivos y capacidad Asimismo 8n agente

inteligente es un programa que basaacutendose en su propio conocimiento realiza un

conjunto de operaciones para satisfacer las necesidades de un usuario o de otro

programa bien por iniciativa propia o porque alguno de estos se lo requiere

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

13

Seguacuten las leyes de la inteligencia artificial debe de tener las siguientes

caracteriacutesticas

Autonomiacutea Debe actuar sin ninguacuten tipo de intervencioacuten humana directa

y tener control sobre sus propios actos

Sociabilidad Comunicatividad Debe de ser capaz de comunicarse

mediante un lenguaje comuacuten con otros agentes e incluso con los

humanos

Capacidad de reaccioacuten Percibe su entorno y reaccionar para adaptarse a

eacutel (por ejemplo ante una palabra mal escrita determinar queacute es a traveacutes

del contexto)

Iniciativa Emprende las acciones necesarias para resolver un problema

Tipologiacuteas de herramientas de segunda generacioacuten (agentes inteligentes)

Clientes z3950 Permiten la consulta simultaacutenea de un elevado nuacutemero de

servidores mediante un uacutenico protocolo es decir un uacutenico interfaz y

lenguaje de interrogacioacuten Es especialmente uacutetil en recuperar la informacioacuten

que se encuentra en la llamada ldquoInternet invisiblerdquo informacioacuten que no es

indizada por los motores de buacutesqueda ndash por ejemplo las bases de datos -

Volcadores Permiten volcar automaacuteticamente una copia ideacutentica de sedes

directorios y documentos manteniendo su estructura y sus elementos ndash

incluso los enlaces - y creando asiacute un archivo offline Se puede programar

la hora del volcado reduciendo considerablemente el tiempo y el coste y

permite activar el vuelco de diferentes tipos especiales de documentos (

html doc pdf gif )

Mutibuscadores o metabuscadores Permiten realizar la recuperacioacuten de la

informacioacuten en varios motores de buacutesqueda simultaacuteneamente A diferencia

de los multibuscadores de primera generacioacuten la mayoriacutea de las tareas

pueden automatizarse y son muy flexibles en su configuracioacuten traducen

expresiones en lenguaje natural enviacutean los perfiles a varios motores de

buacutesqueda y procesan los resultados eliminando los duplicados y ordenando

los contenidos seguacuten criterios y formatos definibles

Trazadores Permiten la buacutesqueda en las paacuteginas enlazadas desde una

paacutegina web determinada o desde una lista de resultados de un buscador

Desde esta primera sede llamada ldquosemillardquo y aprovechando la naturaleza

hipertextual de Internet van comprobaacutendose las paacuteginas que se encuentran

enlazadas seguacuten una serie de criterios de pertinencia y asiacute sucesivamente

hasta un nivel prefijado Aunque generan mucho ruido y es una teacutecnica

lenta permite recuperar informacioacuten que es imposible de localizar para los

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

14

buscadores

Indizadores Permiten indizar y resumir automaacuteticamente diferentes paacuteginas

web y exportar los resultados en diferentes formatos reutilizables por

editores web

Mapeadores Describen iacutentegramente una sede detallando cada fichero y

directorio y proporcionando un mapa de contenidos Permiten obtener

datos numeacutericos que ayudan a evaluar dichos contenidos y establecer una

comparativa entre diferentes sedes web ndash en base a valores como el

tamantildeo la densidad hipermedia de la sede su estructura de niveles la

tipologiacutea de enlaces etc

122 Funcionamiento de los motores de buacutesqueda

Un motor de buacutesqueda estaacute formado por cuatro elementos baacutesicos

1 Un programa (tambieacuten denominado robot rastreador o webcrawler) que recorre

el WWW buscando recursos de informacioacuten y sus respectivas URLs

2 Un sistema automaacutetico de anaacutelisis de contenidos e indexacioacuten de los

documentos localizados por el robot

3 Un sistema de interrogacioacuten generalmente basado en la loacutegica booleana que

permite al usuario expresar su necesidad de informacioacuten

4 Un programa que actuacutea de pasarela entre el servidor de documentos html y la

base de datos

Funcionamiento el motor de buacutesqueda recibe la consulta del usuario (query)

formada por uno o maacutes teacuterminos realiza una consulta interna en la base de datos

que contiene los recursos web indexados y ofrece una lista de aquellos recursos que

cumplen una parte o el total de los requisitos establecidos en la consulta

Generalmente los resultados aparecen ordenados seguacuten una puntuacioacuten (score)

que el programa asocia automaacuteticamente a cada recurso

Para realizar una consulta es necesario tener en cuenta un conjunto de variables

1 Lenguaje de interrogacioacuten que debe ofrecer diferentes tipos de operadores

loacutegicos de comparacioacuten de truncamiento de proximidad de especificacioacuten de

campo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

15

2 Posibilidad de refinar (refine) una buacutesqueda inicial

3 Campos limitadores que nos permitan reducir la buacutesqueda dominios lenguas

paiacuteses fecha de creacioacuten del recurso

4 Buacutesquedas alternativas buacutesqueda simple buacutesqueda avanzada buacutesquedas

combinando operadores e iacutendices temaacuteticos etc

5 Opciones avanzadas buscar diferentes recursos (texto sonido imagen)

guardar y reutilizar buacutesquedas diferentes formatos en los resultados de

buacutesqueda (estaacutendard detallado compacto etc) buacutesqueda de conceptos

relacionados (related topics) consulta directa en bases de datos (infranets)

etc

123 Los metabuscadores

La gran cantidad de informacioacuten y el notable aumento de motores de buacutesqueda

accesibles desemboca en la necesidad de realizar consultas simultaacuteneas en

diferentes motores de buacutesqueda y con una sola estrategia (query) De esta

necesidad surgen los denominados ldquometabuscadoresrdquo que ofrecen nuevas

prestaciones y mejores y maacutes exhaustivos resultados de buacutesqueda

Los metabuscadores permiten automatizar el proceso de realizar una misma

consulta en diversos motores de buacutesqueda lo cual no significa que sea totalmente

exhaustivo puesto que el metabuscador enviacutea la consulta solamente a aquellos

motores de buacutesqueda con los que ha establecido un acuerdo previo

En el funcionamiento de los metabuscadores cabe destacar algunas variables

interesantes Por una lado la exhaustividad no estaacute garantizada (desde el

momento en el que sabemos que un motor de buacutesqueda es capaz de indexar a lo

sumo un 30 de los recursos web disponibles) Por otro los tiempos de respuesta

pueden ser mucho maacutes largos dada la necesidad de realizar muacuteltiples buacutesquedas

simultaacuteneas (Metacrawler permite delimitar el tiempo maacuteximo de espera de 1 a 10

minutos) ademaacutes la recuperacioacuten de recursos duplicados suele ser muy elevada

por ello algunos metabuscadores ya han implementado la utilidad que permite

eliminar los duplicados

124 Tendencia actual de los motores de buacutesqueda

Partiendo de los problemas actuales que presentan los motores de buacutesqueda en

cuanto a su funcionamiento y los resultados ofrecidos se pueden adelantar algunas

viacuteas de solucioacuten futura que marcan la tendencia en la evolucioacuten de los motores de

buacutesqueda

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

16

Los resultados de la buacutesqueda pueden ser satisfactorios o no tanto Los motores de

buacutesqueda ofrecen resultados muy diferentes ante una misma cuestioacuten inicial este

hecho demuestra la poca exhaustividad de los motores en la indexacioacuten de los

recursos web y pone de manifiesto los problemas derivados de la escasez de control

linguumliacutestico

Actualmente se aboga por la incorporacioacuten de herramientas de anaacutelisis linguumliacutestico y

control terminoloacutegico en los motores de buacutesqueda de forma que sea posible

efectuar una recuperacioacuten menos ligada a la comparacioacuten de cadenas de caracteres

y maacutes vinculada a la comparacioacuten de conceptos

La escasa calidad de la informacioacuten recuperada es otro inconveniente de los

actuales motores de buacutesqueda Los mecanismos para aumentar la precisioacuten en la

buacutesqueda (refinamientos buacutesquedas avanzadas acotacioacuten por dominios etc) a

veces no funcionan como cabriacutea esperar A ello hay que antildeadir el miacutenimo valor de

algunos de los sitios web recuperados el porcentaje de recursos repetidos y el

porcentaje de recursos inactivos (que ya no existen fiacutesicamente en la red aunque

continuacutean indexados)

En este sentido se empieza a hablar de una Internet para el gran puacuteblico y una

Internet de los recursos culturales cientiacuteficos y teacutecnicos La especializacioacuten de los

motores de buacutesqueda es una buena viacutea para conseguir mejores servicios de

informacioacuten la especializacioacuten conduce a la concentracioacuten del conocimiento en

ciertos lugares donde los usuarios pueden encontrar faacutecilmente los recursos

relacionados con su aacutembito de conocimiento

13 La Infranet o Internet invisible

La infranet o Internet invisible es el conjunto de recursos accesibles uacutenicamente a

traveacutes de alguacuten tipo de pasarela o formulario web y que por tanto no pueden ser

indizados de forma estructural por los robots de los motores de buacutesqueda

Muchos de estos recursos son de gran calidad y desde el punto de vista del gestor

de informacioacuten tienen una importancia clave en la recuperacioacuten de informacioacuten de

alto valor antildeadido Su invisibilidad para los motores de buacutesqueda implica una

dificultad considerable para la recuperacioacuten efectiva de estos recursos y requiere

aproximaciones novedosas por parte de los profesionales

131 Los recursos de la Internet invisible

La propia heterogeneidad formal de la informacioacuten en Internet puede plantear

dificultades a la hora de entender queacute recursos estaacuten incluido bajo la denominacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

17

de Internet Invisible Con el fin de clarificar queacute contenidos pueden resultar

invisibles se ha considerado una clasificacioacuten que atiende a criterios documentales

Bases de datos bibliograacuteficas se incluyen en este grupo los cataacutelogos de

biblioteca accesibles a traveacutes de una pasarela (OPAC) web otras bases de datos de

referencias bibliograacuteficas (de acceso puacuteblico o restringido ndashregistro previo gratuito o

de pago-) y entidades similares tales como los cataacutelogos de libreriacuteas (ej

Amazoncom)

Bases de datos alfanumeacutericas definidas por exclusioacuten del grupo anterior son

todas las bases de datos que no tienen caraacutecter bibliograacutefico Comprenderiacutea

ademaacutes los recursos llamados de referencia que requiren alguacuten tipo de pasarela de

acceso para su consulta (ej Encyclopaedia Britannica)

Una situacioacuten ligeramente distinta es la planteada por las paacuteginas generadas

dinaacutemicamente (asp jsp php o similares) Dichas paacuteginas soacutelo existen en virtud de

una consulta puntual imposible de realizar por los robots de los motores de

buacutesqueda y cuyo contenido puede alcanzar un considerable grado de

personalizacioacuten Desde un punto de vista documental los contenidos que explotan

estaacuten en una base de datos y por tanto se consideran dentro de esta categoriacutea

Archivos y revistas electroacutenicas se trata de bases de datos que incluyen

documentos a texto completo y que soacutelo se pueden recuperar previa identificacioacuten

de la referencia labor para la que se requiere utilizar una pasarela web simple

(formulario de consulta) o doble (palabra de acceso y formulario de consulta)

Ficheros no HTML o textuales el (relativo) fracaso de HTML original a la hora de

generar paacuteginas con una maquetacioacuten muy rica ha permitido que algunos formatos

de disentildeo maacutes elaborado hayan adquirido popularidad en la web (pdf ps ppt doc)

Estos formatos no textuales no son indizados correctamente por los robots de los

motores de buacutesqueda (excepcioacuten Googlecom ya indiza documentos pdf y los

convierte en HTML) y por tanto constituyen una parte del webespacio invisible que

ha ido adquiriendo cada vez maacutes importancia

132 La recuperacioacuten de la informacioacuten en la Internet invisible

La recuperacioacuten de la informacioacuten en la Internet invisible se apoya

fundamentalmente en la disponibilidad de directorios e iacutendices que identifiquen y

organicen su principales recursos El maacutes importante en el mercado espantildeol es la

sede espantildeola de Internet Invisible httpwwwinternetinvisiblecom

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

18

Las herramientas maacutes importantes para la recuperacioacuten de estos recursos de

informacioacuten invisibles son

Clientes Z3950 La progresiva adopcioacuten del protocolo Z3950 por la mayoriacutea de

las bibliotecas estaacute incrementando el valor de los clientes Z3950 que ya pueden

acceder a una masa criacutetica de recursos

Bookwhere 2000 Sea Change (wwwbookwherecom)

EzCat BookSystems (wwwbooksyscomezcat)

ZNavigator EnWare (wwwenwarees)

ZSearch Infoworks Technology (wwwitcompanycom)

ZPista Ifgenia Plus (wwwifigeniaeszeta)

Agentes inteligentes estos programas se han convertido en herramientas muy

populares en Internet que permiten superar algunos de los problemas

tradicionalmente asociados a los motores de buacutesqueda No todos los agentes

ofrecen acceso a recursos de la Internet invisible e incluso aquellos que asiacute lo hacen

lo presentan como opciones avanzadas normalmente no disponibles en las

versiones ldquosharewarerdquo

BullsEye Intelliseek (wwwintelliseekcom)

Copernic Copernic (wwwcoperniccom)

EZSearch American Systems (wwwamericansyscom)

LexiBot BrightPlanet (wwwlexibotcom)

WebSeeker Blue Squirrel (wwwbluesquirrelcom)

14 Bibliografiacutea

Aguillo Cantildeo Isidro (1999) Del multibuscador al metabuscador las agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

19

trazadores de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten

y la organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada p239-245

Aguillo Cantildeo Isidro (2001) Internet invisible o Infranet definicioacuten clasificacioacuten y

evaluacioacuten En Maldonado Martiacutenez Angeles La informacioacuten especializada en

Internet Madrid CSIC p 161-178

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I Information

World en Espantildeol vol 6 nordm 5 p 22-26

Codina Lluis (2003) Internet invisible y web semaacutentica iquestel futuro de los sistemas

de informacioacuten en liacutenea Revista tradumaacutetica nordm 2 2003

Cornella Alfons (2001) Mensaje 364 de Extra-Net la revista de infonomiacutea La

infranet iquestdoacutende esta el valor

Fernaacutendez de las Heras Joseacute Manuel Diacuteaz de Cerio Pako (2000) La Intranet del

conocimiento IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del

Conocimiento retos y soluciones de los profesionales de la informacioacuten Bilbao 19-

20-21 octubre 2000 p 567-574

Goacutemez Diacuteaz Raquel (2003) La evaluacioacuten en recuperacioacuten de la informacioacutenraquo

Hipertextnet nordm 1 (mayo 2003) httpwwwhipertextnetwebpag238htm

Marcos Mora Mariacutea del Carmen (2005) Elementos visuales en sistemas de

buacutesqueda y recuperacioacuten de la informacioacuten Hipertextnet nordm 3 (mayo 2005)

httpwwwhipertextnetwebpag257htm

Martiacutenez Francisco J Rodriacuteguez Muntildeoz Joseacute Vicente (2004) Reflexiones sobre la

evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesidad utilidad y

viabilidad Anales de documentacioacuten nuacutem 7 (2004) p 153-170

httpwwwumesfccdanalesad07ad0710pdf

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada 1999)

La representacioacuten y la organizacioacuten del conocimiento en sus distintas perspectivas

su influencia en la recuperacioacuten de informacioacuten Granada Isko Universidad de

Granada p 247-248

Vaquero JR (1997) Motores de buacutesqueda Information World en Espantildeol vol 6

nordm 7-8 p 31-32

Vidal Bordeacutes Francisco Javier Salvador Olivaacuten Joseacute Antonio (2000) La

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

20

implementacioacuten de metadatos y Dublin Core en sedes y paacuteginas web de bibliotecas

y centros de documentacioacuten de universidades y centros de investigacioacuten de la Red

IRIS IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del Conocimiento

retos y soluciones de los profesionales de la informacioacuten Bilbao 19-20-21 octubre

2000 p 197-210

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

21

15 Casos praacutecticos

151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda

PRESENTACIOacuteN

La recuperacioacuten del conocimiento mediante la utilizacioacuten de motores de buacutesqueda

es muy heterogeacutenea Cada motor indexa y recupera de una forma diferente Por

tanto es importante tener unos paraacutemetros para poder evaluar queacute motores de

buacutesqueda son los maacutes adecuados ante una necesidad de informacioacuten

OBJETIVOS

Conocer el funcionamiento de los motores de buacutesqueda

Utilizar una metodologiacutea para la evaluacioacuten de motores de buacutesqueda

ENUNCIADO

El estudiante deberaacute evaluar 3 motores de buacutesqueda de aacutembito internacional para

ello usaraacute una estrategia de buacutesqueda que aplicaraacute en los 3 motores

preseleccionados de forma que puedan apreciarse claramente las diferencias entre

eacutestos

Motores de buacutesqueda Googlecom Yahoocom Altavistacom

Estrategia de buacutesqueda digital libraries

Las caracteriacutesticas que pueden presentar los diferentes motores de buacutesqueda se

van a agrupar en tres apartados recogida de la informacioacuten buacutesqueda y

recuperacioacuten de la informacioacuten y presentacioacuten de los resultados

Recogida de informacioacuten En este apartado hay que determinar si el robot

es capaz de identificar las etiquetas ldquoMETArdquo de los documentos HTML y

extraer informacioacuten de las mismas para ser usada en la buacutesqueda o

presentacioacuten de resultados

Buacutesqueda Las caracteriacutesticas baacutesicas que un motor de buacutesqueda debe

cumplir desde el punto de vista de la recuperacioacuten de la informacioacuten son las

siguientes

o Formularios de buacutesqueda posibilidad de elegir entre simple o

avanzado

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

22

o Herramientas de buacutesqueda posibilidad de utilizar operadores

booleanos (AND OR NOT) pareacutentesis comillas para los teacuterminos

compuestos o frases y finalmente posibilidad de truncado en

palabras derivadas

o Clasificacioacuten temaacutetica existencia de un iacutendice general para aquellos

que no saben concretar su tema de buacutesqueda

o Campos de buacutesqueda posibilidad de limitar la buacutesqueda a campos

determinados tales como Tiacutetulo URL Descripcioacuten Palabras Clave

Localizacioacuten e Idioma

o Control del vocabulario descubrir si el motor dispone de alguna

herramienta para eliminar sinonimias y polisemias etc

o Deteccioacuten de novedades posibilidad de diferenciar los nuevos

recursos incorporados

Resultados Hay que tener en cuenta si el motor de buacutesqueda permite

elegir entre diferentes formatos de presentacioacuten de los resultados asiacute como

diversos criterios de ordenacioacuten

FORMATO

El establecido en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

23

CUADRO PARA LA EVALUACIOacuteN DE MOTORES DE BUacuteSQUEDA

Recogida de

informacioacuten

Buacutesqueda y Recuperacioacuten de Informacioacuten

Resultados

Formularios

Herramientas de buacutesqueda

Clasif

Campos de buacutesqueda

Format

Orden

MOTORES

Metadata No

Metadata

Simple Avanz

OR

AND

NOT

( )

ldquo ldquo

Tiacutet

URL

Desc

Keyw

Loc

Leng

Control

Vocab

Nov

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

24

152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda

PRESENTACIOacuteN

Una organizacioacuten ha destinado una partida presupuestaria para aumentar la

presencia web del ayuntamiento e implementar servicios y productos de

informacioacuten interactivos para los ciudadanos

Los departamentos de Informaacutetica Documentacioacuten y Comunicacioacuten estaacuten

colaborando en el proceso de compra de nuevo software que permita implementar

estas prestaciones y sea compatible con el back-office de la organizacioacuten

En la proacutexima reunioacuten se va a decidir queacute software para la implementacioacuten de un

motor de buacutesqueda en la Intranet y sitio web del ayuntamiento se va a adquirir

OBJETIVOS

Conocer las caracteriacutesticas de los principales software del mercado para la

implentacioacuten de tecnologiacutea pull para la recuperacioacuten de la informacioacuten

Presentar una aplicacioacuten praacutectica de la gestioacuten del conocimiento

(recuperacioacuten) en un entorno web

Evaluar un paquete de software con relacioacuten a unos criterios teacutecnicos y

metodoloacutegicos preestablecidos

ENUNCIADO

El estudiante es la persona que representa al Departamento de Documentacioacuten en

esta reunioacuten y debes presentar tu propuesta del paquetes de software que maacutes se

adapta a los requerimientos de la organizacioacuten

Los requerimientos establecidos en la reunioacuten anterior son

Software compatible con el Sistema de Informacioacuten del ayuntamiento

Oracle portal sobre UNIX Bases de datos Access y SQL Server JSP y

Dreamweaver Ultradev

Software compatible con cualquier plataforma web Intranet sitio web CD-

ROM DVD

Indexacioacuten de materiales diversos HTML XML asp php pdf doc etc

Entorno usable y familiar para el usuario interno y externo

Opciones de buacutesqueda avanzada operadores booleanos truncamiento

limitaciones de campo y otros

Indexacioacuten de paacuteginas HTML y de texto en varios idiomas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

25

FORMATO

El formato debe centildeirse a los siguientes apartados

1 Metodologiacutea de la evaluacioacuten [el estudiante debe enunciar las fuentes

consultadas y el conjunto de los paquetes de software analizados]

2 Evaluacioacuten del software [el estudiante debe recopilar la siguiente informacioacuten

del paquetes de software seleccionados]

Nombre del SW

Precio

Requerimientos que cumple

Compatibilidad con el sistema de informacioacuten

Compatibilidad con diferentes plataformas web

Indexacioacuten de materiales diversos

Usabilidad del entorno

Opciones de buacutesqueda

Idiomas

3 Propuesta del Departamento de Documentacioacuten[el estudiante debe comentar

algunos puntos a favor yo en contra del software propuesto como opcioacuten 1]

RECURSOS

Sullivan Danny Search Engine Software for your web site

SearchEngineWatchcom Sept 16 2002 (Consultado el 23-05-2006)

httpsearchenginewatchcomresourcessoftwarehtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

26

16 Anexo Introduccioacuten a Google

Presentacioacuten

Internet es una extensa red de documentos de muacuteltiples formatos desde paacuteginas

web en html a documentos de distintos tipos como puedan ser textos imaacutegenes

archivos de sonido o de viacutedeo etc Cuando necesitas buscar cierta informacioacuten en

Internet lo maacutes eficaz es utilizar un buscador ya que estas herramientas disponen

de robots que rastrean la web en busca de informacioacuten e indexan los documentos

seguacuten sus formatos y contenidos de tal forma que muestran a sus usuarios los

documentos relevantes con los criterios de buacutesqueda elegidos

Conocer adecuadamente las propiedades y herramientas de cada buscador nos

puede ayudar a restringir las buacutesquedas a lo que realmente es relevante para

nosotros sin embargo generalmente estos criterios son desconocidos por el

internauta medio ya que se basan en criterios documentales

Google es el buscador maacutes famoso y utilizado realizar una buacutesqueda bien acotada

es necesario incluir el maacuteximo de palabras relevantes para el usuario prestando

especial atencioacuten a los diferentes significados de una palabra Google determina los

resultados por las coincidencias y cercaniacutea de las palabras entre siacute Google tampoco

distingue entre mayuacutesculas y minuacutesculas ni acentos Entrecomillar frases obliga al

buscador a encontrar paacuteginas que tengan esa frase completa

Buacutesqueda sencilla

httpwwwgoogleesintleshelpbasicshtml

iquestQueacute operador booleano utilizan por defecto las buacutesquedas sencillas Pon un

ejemplo

iquestGoogle permite la utilizacioacuten de comodines () para limitar la buacutesqueda Pon un

ejemplo

iquestGoogle diferencia los acentos y las mayuacutesculas y minuacutesculas Pon un ejemplo

Restricciones en la buacutesqueda

httpwwwgoogleesintleshelprefinesearchhtml

iquestCoacutemo se excluye una palabra de una estrategia de buacutesqueda Por ejemplo de la

buacutesqueda [biblioteca arte moderno] queacute debo hacer para excluir la palabra

moderno

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

iquestQueacute debo hacer para buscar una frase por ejemplo [gran hermano]

iquestCoacutemo puedo buscar noticias sobre la guerra de Irak soacutelo en el sitio web del

Elmundoes Especifica la estrategia de buacutesqueda

Buacutesqueda avanzada

httpwwwgoogleesadvanced_searchhl=es

Los buscadores de internet han superado ampliamente las claacutesicas posibilidades de

filtrado de preguntas basadas en el aacutelgebra booleana (operadores Y NO O en

ingleacutes AND OR y NOT) Por ejemplo google descarta por defecto el operador

booleano OR (historia O roma) asumiendo que su base de datos es tan grande

que o intenta ser muy especiacutefico o el resultado obtenido en una consulta de este

tipo tendraacute demasiado ruido esto saldraacuten demasiadas respuestas Aun asiacute nos

permite utilizarlo a voluntad en su buacutesqueda avanzada

Asiacute google busca por defecto con el operador AND (historia Y roma) y es maacutes

aplica por defecto un operador NEAR decreciente NEAR busca paacuteginas en las que

aparezca historia y tambieacuten roma con una o maacutes palabras de separacioacuten entre

ambos conceptos El nuacutemero de palabras se regula por 123 etc copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

27

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 12: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

12

servicios que pretende satisfacer todas las necesidades de los usuarios de Internet

(cuentas de correo electroacutenico chat paacuteginas amarillas y blancas informacioacuten

metereoloacutegica y de la bolsa servicio de noticias)

1212 Los motores de buacutesqueda

Los motores de buacutesqueda o buscadores tienen sus antecedentes en los simples

listados de direcciones de recursos y documentos de la red y son la respuesta al

raacutepido volumen de crecimiento dela red que supera la capacidad de los recursos

humanos de los directorios ndash que por ello suelen ser selectivos - Los buscadores

son bases de datos creadas por indizacioacuten automaacutetica del texto completo de las

paacuteginas web y realizada por un programa llamado robot Este robot loacutegico o

arantildea (spider) explora de forma automaacutetica los servidores extrayendo las palabras

maacutes significativas de cada paacutegina y creando un iacutendice de buacutesqueda Aun cuando

los programas lleguen a ser similares no existen dos programas de buacutesqueda

exactamente similares en teacuterminos de tamantildeo velocidad y contenido no existen

dos motores de buacutesqueda que utilicen coincidentemente el mismo listado de

relevancia y tampoco cada motor de buacutesqueda ofrece las mismas opciones de

buacutesqueda Por lo tanto su buacutesqueda resultaraacute diferente en cada motor utilizado La

diferencia podriacutea no ser mucha pero siacute significativa

Existe una gran porcioacuten de la red que las ldquoarantildeasrdquo de los buscadores no pueden o

no alcanzan a indizar Se las nombra como la Red Invisible o la Red profunda e

incluye entre otras cosas sitios protegidos por contrasentildeas documentos detraacutes de

ldquocortinas de fuegordquo material archivado herramientas interactivas y los contenidos

de ciertas bases de datos

Los servicios de consulta basados en directorios y motores de buacutesqueda han ido

incorporando prestaciones y han evolucionado hacia lo que actualmente se llaman

portales un conjunto de servicios que pretende satisfacer todas las necesidades de

los usuarios de Internet (cuentas de correo electroacutenico chat paacuteginas amarillas y

blancas informacioacuten metereoloacutegica y de la bolsa servicio de noticias)

1213 Los agentes inteligentes

Un agente es una entidad autoacutenoma capaz de almacenar conocimiento sobre siacute

misma y sobre su entorno con unos objetivos y capacidad Asimismo 8n agente

inteligente es un programa que basaacutendose en su propio conocimiento realiza un

conjunto de operaciones para satisfacer las necesidades de un usuario o de otro

programa bien por iniciativa propia o porque alguno de estos se lo requiere

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

13

Seguacuten las leyes de la inteligencia artificial debe de tener las siguientes

caracteriacutesticas

Autonomiacutea Debe actuar sin ninguacuten tipo de intervencioacuten humana directa

y tener control sobre sus propios actos

Sociabilidad Comunicatividad Debe de ser capaz de comunicarse

mediante un lenguaje comuacuten con otros agentes e incluso con los

humanos

Capacidad de reaccioacuten Percibe su entorno y reaccionar para adaptarse a

eacutel (por ejemplo ante una palabra mal escrita determinar queacute es a traveacutes

del contexto)

Iniciativa Emprende las acciones necesarias para resolver un problema

Tipologiacuteas de herramientas de segunda generacioacuten (agentes inteligentes)

Clientes z3950 Permiten la consulta simultaacutenea de un elevado nuacutemero de

servidores mediante un uacutenico protocolo es decir un uacutenico interfaz y

lenguaje de interrogacioacuten Es especialmente uacutetil en recuperar la informacioacuten

que se encuentra en la llamada ldquoInternet invisiblerdquo informacioacuten que no es

indizada por los motores de buacutesqueda ndash por ejemplo las bases de datos -

Volcadores Permiten volcar automaacuteticamente una copia ideacutentica de sedes

directorios y documentos manteniendo su estructura y sus elementos ndash

incluso los enlaces - y creando asiacute un archivo offline Se puede programar

la hora del volcado reduciendo considerablemente el tiempo y el coste y

permite activar el vuelco de diferentes tipos especiales de documentos (

html doc pdf gif )

Mutibuscadores o metabuscadores Permiten realizar la recuperacioacuten de la

informacioacuten en varios motores de buacutesqueda simultaacuteneamente A diferencia

de los multibuscadores de primera generacioacuten la mayoriacutea de las tareas

pueden automatizarse y son muy flexibles en su configuracioacuten traducen

expresiones en lenguaje natural enviacutean los perfiles a varios motores de

buacutesqueda y procesan los resultados eliminando los duplicados y ordenando

los contenidos seguacuten criterios y formatos definibles

Trazadores Permiten la buacutesqueda en las paacuteginas enlazadas desde una

paacutegina web determinada o desde una lista de resultados de un buscador

Desde esta primera sede llamada ldquosemillardquo y aprovechando la naturaleza

hipertextual de Internet van comprobaacutendose las paacuteginas que se encuentran

enlazadas seguacuten una serie de criterios de pertinencia y asiacute sucesivamente

hasta un nivel prefijado Aunque generan mucho ruido y es una teacutecnica

lenta permite recuperar informacioacuten que es imposible de localizar para los

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

14

buscadores

Indizadores Permiten indizar y resumir automaacuteticamente diferentes paacuteginas

web y exportar los resultados en diferentes formatos reutilizables por

editores web

Mapeadores Describen iacutentegramente una sede detallando cada fichero y

directorio y proporcionando un mapa de contenidos Permiten obtener

datos numeacutericos que ayudan a evaluar dichos contenidos y establecer una

comparativa entre diferentes sedes web ndash en base a valores como el

tamantildeo la densidad hipermedia de la sede su estructura de niveles la

tipologiacutea de enlaces etc

122 Funcionamiento de los motores de buacutesqueda

Un motor de buacutesqueda estaacute formado por cuatro elementos baacutesicos

1 Un programa (tambieacuten denominado robot rastreador o webcrawler) que recorre

el WWW buscando recursos de informacioacuten y sus respectivas URLs

2 Un sistema automaacutetico de anaacutelisis de contenidos e indexacioacuten de los

documentos localizados por el robot

3 Un sistema de interrogacioacuten generalmente basado en la loacutegica booleana que

permite al usuario expresar su necesidad de informacioacuten

4 Un programa que actuacutea de pasarela entre el servidor de documentos html y la

base de datos

Funcionamiento el motor de buacutesqueda recibe la consulta del usuario (query)

formada por uno o maacutes teacuterminos realiza una consulta interna en la base de datos

que contiene los recursos web indexados y ofrece una lista de aquellos recursos que

cumplen una parte o el total de los requisitos establecidos en la consulta

Generalmente los resultados aparecen ordenados seguacuten una puntuacioacuten (score)

que el programa asocia automaacuteticamente a cada recurso

Para realizar una consulta es necesario tener en cuenta un conjunto de variables

1 Lenguaje de interrogacioacuten que debe ofrecer diferentes tipos de operadores

loacutegicos de comparacioacuten de truncamiento de proximidad de especificacioacuten de

campo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

15

2 Posibilidad de refinar (refine) una buacutesqueda inicial

3 Campos limitadores que nos permitan reducir la buacutesqueda dominios lenguas

paiacuteses fecha de creacioacuten del recurso

4 Buacutesquedas alternativas buacutesqueda simple buacutesqueda avanzada buacutesquedas

combinando operadores e iacutendices temaacuteticos etc

5 Opciones avanzadas buscar diferentes recursos (texto sonido imagen)

guardar y reutilizar buacutesquedas diferentes formatos en los resultados de

buacutesqueda (estaacutendard detallado compacto etc) buacutesqueda de conceptos

relacionados (related topics) consulta directa en bases de datos (infranets)

etc

123 Los metabuscadores

La gran cantidad de informacioacuten y el notable aumento de motores de buacutesqueda

accesibles desemboca en la necesidad de realizar consultas simultaacuteneas en

diferentes motores de buacutesqueda y con una sola estrategia (query) De esta

necesidad surgen los denominados ldquometabuscadoresrdquo que ofrecen nuevas

prestaciones y mejores y maacutes exhaustivos resultados de buacutesqueda

Los metabuscadores permiten automatizar el proceso de realizar una misma

consulta en diversos motores de buacutesqueda lo cual no significa que sea totalmente

exhaustivo puesto que el metabuscador enviacutea la consulta solamente a aquellos

motores de buacutesqueda con los que ha establecido un acuerdo previo

En el funcionamiento de los metabuscadores cabe destacar algunas variables

interesantes Por una lado la exhaustividad no estaacute garantizada (desde el

momento en el que sabemos que un motor de buacutesqueda es capaz de indexar a lo

sumo un 30 de los recursos web disponibles) Por otro los tiempos de respuesta

pueden ser mucho maacutes largos dada la necesidad de realizar muacuteltiples buacutesquedas

simultaacuteneas (Metacrawler permite delimitar el tiempo maacuteximo de espera de 1 a 10

minutos) ademaacutes la recuperacioacuten de recursos duplicados suele ser muy elevada

por ello algunos metabuscadores ya han implementado la utilidad que permite

eliminar los duplicados

124 Tendencia actual de los motores de buacutesqueda

Partiendo de los problemas actuales que presentan los motores de buacutesqueda en

cuanto a su funcionamiento y los resultados ofrecidos se pueden adelantar algunas

viacuteas de solucioacuten futura que marcan la tendencia en la evolucioacuten de los motores de

buacutesqueda

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

16

Los resultados de la buacutesqueda pueden ser satisfactorios o no tanto Los motores de

buacutesqueda ofrecen resultados muy diferentes ante una misma cuestioacuten inicial este

hecho demuestra la poca exhaustividad de los motores en la indexacioacuten de los

recursos web y pone de manifiesto los problemas derivados de la escasez de control

linguumliacutestico

Actualmente se aboga por la incorporacioacuten de herramientas de anaacutelisis linguumliacutestico y

control terminoloacutegico en los motores de buacutesqueda de forma que sea posible

efectuar una recuperacioacuten menos ligada a la comparacioacuten de cadenas de caracteres

y maacutes vinculada a la comparacioacuten de conceptos

La escasa calidad de la informacioacuten recuperada es otro inconveniente de los

actuales motores de buacutesqueda Los mecanismos para aumentar la precisioacuten en la

buacutesqueda (refinamientos buacutesquedas avanzadas acotacioacuten por dominios etc) a

veces no funcionan como cabriacutea esperar A ello hay que antildeadir el miacutenimo valor de

algunos de los sitios web recuperados el porcentaje de recursos repetidos y el

porcentaje de recursos inactivos (que ya no existen fiacutesicamente en la red aunque

continuacutean indexados)

En este sentido se empieza a hablar de una Internet para el gran puacuteblico y una

Internet de los recursos culturales cientiacuteficos y teacutecnicos La especializacioacuten de los

motores de buacutesqueda es una buena viacutea para conseguir mejores servicios de

informacioacuten la especializacioacuten conduce a la concentracioacuten del conocimiento en

ciertos lugares donde los usuarios pueden encontrar faacutecilmente los recursos

relacionados con su aacutembito de conocimiento

13 La Infranet o Internet invisible

La infranet o Internet invisible es el conjunto de recursos accesibles uacutenicamente a

traveacutes de alguacuten tipo de pasarela o formulario web y que por tanto no pueden ser

indizados de forma estructural por los robots de los motores de buacutesqueda

Muchos de estos recursos son de gran calidad y desde el punto de vista del gestor

de informacioacuten tienen una importancia clave en la recuperacioacuten de informacioacuten de

alto valor antildeadido Su invisibilidad para los motores de buacutesqueda implica una

dificultad considerable para la recuperacioacuten efectiva de estos recursos y requiere

aproximaciones novedosas por parte de los profesionales

131 Los recursos de la Internet invisible

La propia heterogeneidad formal de la informacioacuten en Internet puede plantear

dificultades a la hora de entender queacute recursos estaacuten incluido bajo la denominacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

17

de Internet Invisible Con el fin de clarificar queacute contenidos pueden resultar

invisibles se ha considerado una clasificacioacuten que atiende a criterios documentales

Bases de datos bibliograacuteficas se incluyen en este grupo los cataacutelogos de

biblioteca accesibles a traveacutes de una pasarela (OPAC) web otras bases de datos de

referencias bibliograacuteficas (de acceso puacuteblico o restringido ndashregistro previo gratuito o

de pago-) y entidades similares tales como los cataacutelogos de libreriacuteas (ej

Amazoncom)

Bases de datos alfanumeacutericas definidas por exclusioacuten del grupo anterior son

todas las bases de datos que no tienen caraacutecter bibliograacutefico Comprenderiacutea

ademaacutes los recursos llamados de referencia que requiren alguacuten tipo de pasarela de

acceso para su consulta (ej Encyclopaedia Britannica)

Una situacioacuten ligeramente distinta es la planteada por las paacuteginas generadas

dinaacutemicamente (asp jsp php o similares) Dichas paacuteginas soacutelo existen en virtud de

una consulta puntual imposible de realizar por los robots de los motores de

buacutesqueda y cuyo contenido puede alcanzar un considerable grado de

personalizacioacuten Desde un punto de vista documental los contenidos que explotan

estaacuten en una base de datos y por tanto se consideran dentro de esta categoriacutea

Archivos y revistas electroacutenicas se trata de bases de datos que incluyen

documentos a texto completo y que soacutelo se pueden recuperar previa identificacioacuten

de la referencia labor para la que se requiere utilizar una pasarela web simple

(formulario de consulta) o doble (palabra de acceso y formulario de consulta)

Ficheros no HTML o textuales el (relativo) fracaso de HTML original a la hora de

generar paacuteginas con una maquetacioacuten muy rica ha permitido que algunos formatos

de disentildeo maacutes elaborado hayan adquirido popularidad en la web (pdf ps ppt doc)

Estos formatos no textuales no son indizados correctamente por los robots de los

motores de buacutesqueda (excepcioacuten Googlecom ya indiza documentos pdf y los

convierte en HTML) y por tanto constituyen una parte del webespacio invisible que

ha ido adquiriendo cada vez maacutes importancia

132 La recuperacioacuten de la informacioacuten en la Internet invisible

La recuperacioacuten de la informacioacuten en la Internet invisible se apoya

fundamentalmente en la disponibilidad de directorios e iacutendices que identifiquen y

organicen su principales recursos El maacutes importante en el mercado espantildeol es la

sede espantildeola de Internet Invisible httpwwwinternetinvisiblecom

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

18

Las herramientas maacutes importantes para la recuperacioacuten de estos recursos de

informacioacuten invisibles son

Clientes Z3950 La progresiva adopcioacuten del protocolo Z3950 por la mayoriacutea de

las bibliotecas estaacute incrementando el valor de los clientes Z3950 que ya pueden

acceder a una masa criacutetica de recursos

Bookwhere 2000 Sea Change (wwwbookwherecom)

EzCat BookSystems (wwwbooksyscomezcat)

ZNavigator EnWare (wwwenwarees)

ZSearch Infoworks Technology (wwwitcompanycom)

ZPista Ifgenia Plus (wwwifigeniaeszeta)

Agentes inteligentes estos programas se han convertido en herramientas muy

populares en Internet que permiten superar algunos de los problemas

tradicionalmente asociados a los motores de buacutesqueda No todos los agentes

ofrecen acceso a recursos de la Internet invisible e incluso aquellos que asiacute lo hacen

lo presentan como opciones avanzadas normalmente no disponibles en las

versiones ldquosharewarerdquo

BullsEye Intelliseek (wwwintelliseekcom)

Copernic Copernic (wwwcoperniccom)

EZSearch American Systems (wwwamericansyscom)

LexiBot BrightPlanet (wwwlexibotcom)

WebSeeker Blue Squirrel (wwwbluesquirrelcom)

14 Bibliografiacutea

Aguillo Cantildeo Isidro (1999) Del multibuscador al metabuscador las agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

19

trazadores de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten

y la organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada p239-245

Aguillo Cantildeo Isidro (2001) Internet invisible o Infranet definicioacuten clasificacioacuten y

evaluacioacuten En Maldonado Martiacutenez Angeles La informacioacuten especializada en

Internet Madrid CSIC p 161-178

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I Information

World en Espantildeol vol 6 nordm 5 p 22-26

Codina Lluis (2003) Internet invisible y web semaacutentica iquestel futuro de los sistemas

de informacioacuten en liacutenea Revista tradumaacutetica nordm 2 2003

Cornella Alfons (2001) Mensaje 364 de Extra-Net la revista de infonomiacutea La

infranet iquestdoacutende esta el valor

Fernaacutendez de las Heras Joseacute Manuel Diacuteaz de Cerio Pako (2000) La Intranet del

conocimiento IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del

Conocimiento retos y soluciones de los profesionales de la informacioacuten Bilbao 19-

20-21 octubre 2000 p 567-574

Goacutemez Diacuteaz Raquel (2003) La evaluacioacuten en recuperacioacuten de la informacioacutenraquo

Hipertextnet nordm 1 (mayo 2003) httpwwwhipertextnetwebpag238htm

Marcos Mora Mariacutea del Carmen (2005) Elementos visuales en sistemas de

buacutesqueda y recuperacioacuten de la informacioacuten Hipertextnet nordm 3 (mayo 2005)

httpwwwhipertextnetwebpag257htm

Martiacutenez Francisco J Rodriacuteguez Muntildeoz Joseacute Vicente (2004) Reflexiones sobre la

evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesidad utilidad y

viabilidad Anales de documentacioacuten nuacutem 7 (2004) p 153-170

httpwwwumesfccdanalesad07ad0710pdf

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada 1999)

La representacioacuten y la organizacioacuten del conocimiento en sus distintas perspectivas

su influencia en la recuperacioacuten de informacioacuten Granada Isko Universidad de

Granada p 247-248

Vaquero JR (1997) Motores de buacutesqueda Information World en Espantildeol vol 6

nordm 7-8 p 31-32

Vidal Bordeacutes Francisco Javier Salvador Olivaacuten Joseacute Antonio (2000) La

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

20

implementacioacuten de metadatos y Dublin Core en sedes y paacuteginas web de bibliotecas

y centros de documentacioacuten de universidades y centros de investigacioacuten de la Red

IRIS IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del Conocimiento

retos y soluciones de los profesionales de la informacioacuten Bilbao 19-20-21 octubre

2000 p 197-210

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

21

15 Casos praacutecticos

151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda

PRESENTACIOacuteN

La recuperacioacuten del conocimiento mediante la utilizacioacuten de motores de buacutesqueda

es muy heterogeacutenea Cada motor indexa y recupera de una forma diferente Por

tanto es importante tener unos paraacutemetros para poder evaluar queacute motores de

buacutesqueda son los maacutes adecuados ante una necesidad de informacioacuten

OBJETIVOS

Conocer el funcionamiento de los motores de buacutesqueda

Utilizar una metodologiacutea para la evaluacioacuten de motores de buacutesqueda

ENUNCIADO

El estudiante deberaacute evaluar 3 motores de buacutesqueda de aacutembito internacional para

ello usaraacute una estrategia de buacutesqueda que aplicaraacute en los 3 motores

preseleccionados de forma que puedan apreciarse claramente las diferencias entre

eacutestos

Motores de buacutesqueda Googlecom Yahoocom Altavistacom

Estrategia de buacutesqueda digital libraries

Las caracteriacutesticas que pueden presentar los diferentes motores de buacutesqueda se

van a agrupar en tres apartados recogida de la informacioacuten buacutesqueda y

recuperacioacuten de la informacioacuten y presentacioacuten de los resultados

Recogida de informacioacuten En este apartado hay que determinar si el robot

es capaz de identificar las etiquetas ldquoMETArdquo de los documentos HTML y

extraer informacioacuten de las mismas para ser usada en la buacutesqueda o

presentacioacuten de resultados

Buacutesqueda Las caracteriacutesticas baacutesicas que un motor de buacutesqueda debe

cumplir desde el punto de vista de la recuperacioacuten de la informacioacuten son las

siguientes

o Formularios de buacutesqueda posibilidad de elegir entre simple o

avanzado

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

22

o Herramientas de buacutesqueda posibilidad de utilizar operadores

booleanos (AND OR NOT) pareacutentesis comillas para los teacuterminos

compuestos o frases y finalmente posibilidad de truncado en

palabras derivadas

o Clasificacioacuten temaacutetica existencia de un iacutendice general para aquellos

que no saben concretar su tema de buacutesqueda

o Campos de buacutesqueda posibilidad de limitar la buacutesqueda a campos

determinados tales como Tiacutetulo URL Descripcioacuten Palabras Clave

Localizacioacuten e Idioma

o Control del vocabulario descubrir si el motor dispone de alguna

herramienta para eliminar sinonimias y polisemias etc

o Deteccioacuten de novedades posibilidad de diferenciar los nuevos

recursos incorporados

Resultados Hay que tener en cuenta si el motor de buacutesqueda permite

elegir entre diferentes formatos de presentacioacuten de los resultados asiacute como

diversos criterios de ordenacioacuten

FORMATO

El establecido en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

23

CUADRO PARA LA EVALUACIOacuteN DE MOTORES DE BUacuteSQUEDA

Recogida de

informacioacuten

Buacutesqueda y Recuperacioacuten de Informacioacuten

Resultados

Formularios

Herramientas de buacutesqueda

Clasif

Campos de buacutesqueda

Format

Orden

MOTORES

Metadata No

Metadata

Simple Avanz

OR

AND

NOT

( )

ldquo ldquo

Tiacutet

URL

Desc

Keyw

Loc

Leng

Control

Vocab

Nov

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

24

152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda

PRESENTACIOacuteN

Una organizacioacuten ha destinado una partida presupuestaria para aumentar la

presencia web del ayuntamiento e implementar servicios y productos de

informacioacuten interactivos para los ciudadanos

Los departamentos de Informaacutetica Documentacioacuten y Comunicacioacuten estaacuten

colaborando en el proceso de compra de nuevo software que permita implementar

estas prestaciones y sea compatible con el back-office de la organizacioacuten

En la proacutexima reunioacuten se va a decidir queacute software para la implementacioacuten de un

motor de buacutesqueda en la Intranet y sitio web del ayuntamiento se va a adquirir

OBJETIVOS

Conocer las caracteriacutesticas de los principales software del mercado para la

implentacioacuten de tecnologiacutea pull para la recuperacioacuten de la informacioacuten

Presentar una aplicacioacuten praacutectica de la gestioacuten del conocimiento

(recuperacioacuten) en un entorno web

Evaluar un paquete de software con relacioacuten a unos criterios teacutecnicos y

metodoloacutegicos preestablecidos

ENUNCIADO

El estudiante es la persona que representa al Departamento de Documentacioacuten en

esta reunioacuten y debes presentar tu propuesta del paquetes de software que maacutes se

adapta a los requerimientos de la organizacioacuten

Los requerimientos establecidos en la reunioacuten anterior son

Software compatible con el Sistema de Informacioacuten del ayuntamiento

Oracle portal sobre UNIX Bases de datos Access y SQL Server JSP y

Dreamweaver Ultradev

Software compatible con cualquier plataforma web Intranet sitio web CD-

ROM DVD

Indexacioacuten de materiales diversos HTML XML asp php pdf doc etc

Entorno usable y familiar para el usuario interno y externo

Opciones de buacutesqueda avanzada operadores booleanos truncamiento

limitaciones de campo y otros

Indexacioacuten de paacuteginas HTML y de texto en varios idiomas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

25

FORMATO

El formato debe centildeirse a los siguientes apartados

1 Metodologiacutea de la evaluacioacuten [el estudiante debe enunciar las fuentes

consultadas y el conjunto de los paquetes de software analizados]

2 Evaluacioacuten del software [el estudiante debe recopilar la siguiente informacioacuten

del paquetes de software seleccionados]

Nombre del SW

Precio

Requerimientos que cumple

Compatibilidad con el sistema de informacioacuten

Compatibilidad con diferentes plataformas web

Indexacioacuten de materiales diversos

Usabilidad del entorno

Opciones de buacutesqueda

Idiomas

3 Propuesta del Departamento de Documentacioacuten[el estudiante debe comentar

algunos puntos a favor yo en contra del software propuesto como opcioacuten 1]

RECURSOS

Sullivan Danny Search Engine Software for your web site

SearchEngineWatchcom Sept 16 2002 (Consultado el 23-05-2006)

httpsearchenginewatchcomresourcessoftwarehtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

26

16 Anexo Introduccioacuten a Google

Presentacioacuten

Internet es una extensa red de documentos de muacuteltiples formatos desde paacuteginas

web en html a documentos de distintos tipos como puedan ser textos imaacutegenes

archivos de sonido o de viacutedeo etc Cuando necesitas buscar cierta informacioacuten en

Internet lo maacutes eficaz es utilizar un buscador ya que estas herramientas disponen

de robots que rastrean la web en busca de informacioacuten e indexan los documentos

seguacuten sus formatos y contenidos de tal forma que muestran a sus usuarios los

documentos relevantes con los criterios de buacutesqueda elegidos

Conocer adecuadamente las propiedades y herramientas de cada buscador nos

puede ayudar a restringir las buacutesquedas a lo que realmente es relevante para

nosotros sin embargo generalmente estos criterios son desconocidos por el

internauta medio ya que se basan en criterios documentales

Google es el buscador maacutes famoso y utilizado realizar una buacutesqueda bien acotada

es necesario incluir el maacuteximo de palabras relevantes para el usuario prestando

especial atencioacuten a los diferentes significados de una palabra Google determina los

resultados por las coincidencias y cercaniacutea de las palabras entre siacute Google tampoco

distingue entre mayuacutesculas y minuacutesculas ni acentos Entrecomillar frases obliga al

buscador a encontrar paacuteginas que tengan esa frase completa

Buacutesqueda sencilla

httpwwwgoogleesintleshelpbasicshtml

iquestQueacute operador booleano utilizan por defecto las buacutesquedas sencillas Pon un

ejemplo

iquestGoogle permite la utilizacioacuten de comodines () para limitar la buacutesqueda Pon un

ejemplo

iquestGoogle diferencia los acentos y las mayuacutesculas y minuacutesculas Pon un ejemplo

Restricciones en la buacutesqueda

httpwwwgoogleesintleshelprefinesearchhtml

iquestCoacutemo se excluye una palabra de una estrategia de buacutesqueda Por ejemplo de la

buacutesqueda [biblioteca arte moderno] queacute debo hacer para excluir la palabra

moderno

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

iquestQueacute debo hacer para buscar una frase por ejemplo [gran hermano]

iquestCoacutemo puedo buscar noticias sobre la guerra de Irak soacutelo en el sitio web del

Elmundoes Especifica la estrategia de buacutesqueda

Buacutesqueda avanzada

httpwwwgoogleesadvanced_searchhl=es

Los buscadores de internet han superado ampliamente las claacutesicas posibilidades de

filtrado de preguntas basadas en el aacutelgebra booleana (operadores Y NO O en

ingleacutes AND OR y NOT) Por ejemplo google descarta por defecto el operador

booleano OR (historia O roma) asumiendo que su base de datos es tan grande

que o intenta ser muy especiacutefico o el resultado obtenido en una consulta de este

tipo tendraacute demasiado ruido esto saldraacuten demasiadas respuestas Aun asiacute nos

permite utilizarlo a voluntad en su buacutesqueda avanzada

Asiacute google busca por defecto con el operador AND (historia Y roma) y es maacutes

aplica por defecto un operador NEAR decreciente NEAR busca paacuteginas en las que

aparezca historia y tambieacuten roma con una o maacutes palabras de separacioacuten entre

ambos conceptos El nuacutemero de palabras se regula por 123 etc copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

27

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 13: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

13

Seguacuten las leyes de la inteligencia artificial debe de tener las siguientes

caracteriacutesticas

Autonomiacutea Debe actuar sin ninguacuten tipo de intervencioacuten humana directa

y tener control sobre sus propios actos

Sociabilidad Comunicatividad Debe de ser capaz de comunicarse

mediante un lenguaje comuacuten con otros agentes e incluso con los

humanos

Capacidad de reaccioacuten Percibe su entorno y reaccionar para adaptarse a

eacutel (por ejemplo ante una palabra mal escrita determinar queacute es a traveacutes

del contexto)

Iniciativa Emprende las acciones necesarias para resolver un problema

Tipologiacuteas de herramientas de segunda generacioacuten (agentes inteligentes)

Clientes z3950 Permiten la consulta simultaacutenea de un elevado nuacutemero de

servidores mediante un uacutenico protocolo es decir un uacutenico interfaz y

lenguaje de interrogacioacuten Es especialmente uacutetil en recuperar la informacioacuten

que se encuentra en la llamada ldquoInternet invisiblerdquo informacioacuten que no es

indizada por los motores de buacutesqueda ndash por ejemplo las bases de datos -

Volcadores Permiten volcar automaacuteticamente una copia ideacutentica de sedes

directorios y documentos manteniendo su estructura y sus elementos ndash

incluso los enlaces - y creando asiacute un archivo offline Se puede programar

la hora del volcado reduciendo considerablemente el tiempo y el coste y

permite activar el vuelco de diferentes tipos especiales de documentos (

html doc pdf gif )

Mutibuscadores o metabuscadores Permiten realizar la recuperacioacuten de la

informacioacuten en varios motores de buacutesqueda simultaacuteneamente A diferencia

de los multibuscadores de primera generacioacuten la mayoriacutea de las tareas

pueden automatizarse y son muy flexibles en su configuracioacuten traducen

expresiones en lenguaje natural enviacutean los perfiles a varios motores de

buacutesqueda y procesan los resultados eliminando los duplicados y ordenando

los contenidos seguacuten criterios y formatos definibles

Trazadores Permiten la buacutesqueda en las paacuteginas enlazadas desde una

paacutegina web determinada o desde una lista de resultados de un buscador

Desde esta primera sede llamada ldquosemillardquo y aprovechando la naturaleza

hipertextual de Internet van comprobaacutendose las paacuteginas que se encuentran

enlazadas seguacuten una serie de criterios de pertinencia y asiacute sucesivamente

hasta un nivel prefijado Aunque generan mucho ruido y es una teacutecnica

lenta permite recuperar informacioacuten que es imposible de localizar para los

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

14

buscadores

Indizadores Permiten indizar y resumir automaacuteticamente diferentes paacuteginas

web y exportar los resultados en diferentes formatos reutilizables por

editores web

Mapeadores Describen iacutentegramente una sede detallando cada fichero y

directorio y proporcionando un mapa de contenidos Permiten obtener

datos numeacutericos que ayudan a evaluar dichos contenidos y establecer una

comparativa entre diferentes sedes web ndash en base a valores como el

tamantildeo la densidad hipermedia de la sede su estructura de niveles la

tipologiacutea de enlaces etc

122 Funcionamiento de los motores de buacutesqueda

Un motor de buacutesqueda estaacute formado por cuatro elementos baacutesicos

1 Un programa (tambieacuten denominado robot rastreador o webcrawler) que recorre

el WWW buscando recursos de informacioacuten y sus respectivas URLs

2 Un sistema automaacutetico de anaacutelisis de contenidos e indexacioacuten de los

documentos localizados por el robot

3 Un sistema de interrogacioacuten generalmente basado en la loacutegica booleana que

permite al usuario expresar su necesidad de informacioacuten

4 Un programa que actuacutea de pasarela entre el servidor de documentos html y la

base de datos

Funcionamiento el motor de buacutesqueda recibe la consulta del usuario (query)

formada por uno o maacutes teacuterminos realiza una consulta interna en la base de datos

que contiene los recursos web indexados y ofrece una lista de aquellos recursos que

cumplen una parte o el total de los requisitos establecidos en la consulta

Generalmente los resultados aparecen ordenados seguacuten una puntuacioacuten (score)

que el programa asocia automaacuteticamente a cada recurso

Para realizar una consulta es necesario tener en cuenta un conjunto de variables

1 Lenguaje de interrogacioacuten que debe ofrecer diferentes tipos de operadores

loacutegicos de comparacioacuten de truncamiento de proximidad de especificacioacuten de

campo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

15

2 Posibilidad de refinar (refine) una buacutesqueda inicial

3 Campos limitadores que nos permitan reducir la buacutesqueda dominios lenguas

paiacuteses fecha de creacioacuten del recurso

4 Buacutesquedas alternativas buacutesqueda simple buacutesqueda avanzada buacutesquedas

combinando operadores e iacutendices temaacuteticos etc

5 Opciones avanzadas buscar diferentes recursos (texto sonido imagen)

guardar y reutilizar buacutesquedas diferentes formatos en los resultados de

buacutesqueda (estaacutendard detallado compacto etc) buacutesqueda de conceptos

relacionados (related topics) consulta directa en bases de datos (infranets)

etc

123 Los metabuscadores

La gran cantidad de informacioacuten y el notable aumento de motores de buacutesqueda

accesibles desemboca en la necesidad de realizar consultas simultaacuteneas en

diferentes motores de buacutesqueda y con una sola estrategia (query) De esta

necesidad surgen los denominados ldquometabuscadoresrdquo que ofrecen nuevas

prestaciones y mejores y maacutes exhaustivos resultados de buacutesqueda

Los metabuscadores permiten automatizar el proceso de realizar una misma

consulta en diversos motores de buacutesqueda lo cual no significa que sea totalmente

exhaustivo puesto que el metabuscador enviacutea la consulta solamente a aquellos

motores de buacutesqueda con los que ha establecido un acuerdo previo

En el funcionamiento de los metabuscadores cabe destacar algunas variables

interesantes Por una lado la exhaustividad no estaacute garantizada (desde el

momento en el que sabemos que un motor de buacutesqueda es capaz de indexar a lo

sumo un 30 de los recursos web disponibles) Por otro los tiempos de respuesta

pueden ser mucho maacutes largos dada la necesidad de realizar muacuteltiples buacutesquedas

simultaacuteneas (Metacrawler permite delimitar el tiempo maacuteximo de espera de 1 a 10

minutos) ademaacutes la recuperacioacuten de recursos duplicados suele ser muy elevada

por ello algunos metabuscadores ya han implementado la utilidad que permite

eliminar los duplicados

124 Tendencia actual de los motores de buacutesqueda

Partiendo de los problemas actuales que presentan los motores de buacutesqueda en

cuanto a su funcionamiento y los resultados ofrecidos se pueden adelantar algunas

viacuteas de solucioacuten futura que marcan la tendencia en la evolucioacuten de los motores de

buacutesqueda

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

16

Los resultados de la buacutesqueda pueden ser satisfactorios o no tanto Los motores de

buacutesqueda ofrecen resultados muy diferentes ante una misma cuestioacuten inicial este

hecho demuestra la poca exhaustividad de los motores en la indexacioacuten de los

recursos web y pone de manifiesto los problemas derivados de la escasez de control

linguumliacutestico

Actualmente se aboga por la incorporacioacuten de herramientas de anaacutelisis linguumliacutestico y

control terminoloacutegico en los motores de buacutesqueda de forma que sea posible

efectuar una recuperacioacuten menos ligada a la comparacioacuten de cadenas de caracteres

y maacutes vinculada a la comparacioacuten de conceptos

La escasa calidad de la informacioacuten recuperada es otro inconveniente de los

actuales motores de buacutesqueda Los mecanismos para aumentar la precisioacuten en la

buacutesqueda (refinamientos buacutesquedas avanzadas acotacioacuten por dominios etc) a

veces no funcionan como cabriacutea esperar A ello hay que antildeadir el miacutenimo valor de

algunos de los sitios web recuperados el porcentaje de recursos repetidos y el

porcentaje de recursos inactivos (que ya no existen fiacutesicamente en la red aunque

continuacutean indexados)

En este sentido se empieza a hablar de una Internet para el gran puacuteblico y una

Internet de los recursos culturales cientiacuteficos y teacutecnicos La especializacioacuten de los

motores de buacutesqueda es una buena viacutea para conseguir mejores servicios de

informacioacuten la especializacioacuten conduce a la concentracioacuten del conocimiento en

ciertos lugares donde los usuarios pueden encontrar faacutecilmente los recursos

relacionados con su aacutembito de conocimiento

13 La Infranet o Internet invisible

La infranet o Internet invisible es el conjunto de recursos accesibles uacutenicamente a

traveacutes de alguacuten tipo de pasarela o formulario web y que por tanto no pueden ser

indizados de forma estructural por los robots de los motores de buacutesqueda

Muchos de estos recursos son de gran calidad y desde el punto de vista del gestor

de informacioacuten tienen una importancia clave en la recuperacioacuten de informacioacuten de

alto valor antildeadido Su invisibilidad para los motores de buacutesqueda implica una

dificultad considerable para la recuperacioacuten efectiva de estos recursos y requiere

aproximaciones novedosas por parte de los profesionales

131 Los recursos de la Internet invisible

La propia heterogeneidad formal de la informacioacuten en Internet puede plantear

dificultades a la hora de entender queacute recursos estaacuten incluido bajo la denominacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

17

de Internet Invisible Con el fin de clarificar queacute contenidos pueden resultar

invisibles se ha considerado una clasificacioacuten que atiende a criterios documentales

Bases de datos bibliograacuteficas se incluyen en este grupo los cataacutelogos de

biblioteca accesibles a traveacutes de una pasarela (OPAC) web otras bases de datos de

referencias bibliograacuteficas (de acceso puacuteblico o restringido ndashregistro previo gratuito o

de pago-) y entidades similares tales como los cataacutelogos de libreriacuteas (ej

Amazoncom)

Bases de datos alfanumeacutericas definidas por exclusioacuten del grupo anterior son

todas las bases de datos que no tienen caraacutecter bibliograacutefico Comprenderiacutea

ademaacutes los recursos llamados de referencia que requiren alguacuten tipo de pasarela de

acceso para su consulta (ej Encyclopaedia Britannica)

Una situacioacuten ligeramente distinta es la planteada por las paacuteginas generadas

dinaacutemicamente (asp jsp php o similares) Dichas paacuteginas soacutelo existen en virtud de

una consulta puntual imposible de realizar por los robots de los motores de

buacutesqueda y cuyo contenido puede alcanzar un considerable grado de

personalizacioacuten Desde un punto de vista documental los contenidos que explotan

estaacuten en una base de datos y por tanto se consideran dentro de esta categoriacutea

Archivos y revistas electroacutenicas se trata de bases de datos que incluyen

documentos a texto completo y que soacutelo se pueden recuperar previa identificacioacuten

de la referencia labor para la que se requiere utilizar una pasarela web simple

(formulario de consulta) o doble (palabra de acceso y formulario de consulta)

Ficheros no HTML o textuales el (relativo) fracaso de HTML original a la hora de

generar paacuteginas con una maquetacioacuten muy rica ha permitido que algunos formatos

de disentildeo maacutes elaborado hayan adquirido popularidad en la web (pdf ps ppt doc)

Estos formatos no textuales no son indizados correctamente por los robots de los

motores de buacutesqueda (excepcioacuten Googlecom ya indiza documentos pdf y los

convierte en HTML) y por tanto constituyen una parte del webespacio invisible que

ha ido adquiriendo cada vez maacutes importancia

132 La recuperacioacuten de la informacioacuten en la Internet invisible

La recuperacioacuten de la informacioacuten en la Internet invisible se apoya

fundamentalmente en la disponibilidad de directorios e iacutendices que identifiquen y

organicen su principales recursos El maacutes importante en el mercado espantildeol es la

sede espantildeola de Internet Invisible httpwwwinternetinvisiblecom

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

18

Las herramientas maacutes importantes para la recuperacioacuten de estos recursos de

informacioacuten invisibles son

Clientes Z3950 La progresiva adopcioacuten del protocolo Z3950 por la mayoriacutea de

las bibliotecas estaacute incrementando el valor de los clientes Z3950 que ya pueden

acceder a una masa criacutetica de recursos

Bookwhere 2000 Sea Change (wwwbookwherecom)

EzCat BookSystems (wwwbooksyscomezcat)

ZNavigator EnWare (wwwenwarees)

ZSearch Infoworks Technology (wwwitcompanycom)

ZPista Ifgenia Plus (wwwifigeniaeszeta)

Agentes inteligentes estos programas se han convertido en herramientas muy

populares en Internet que permiten superar algunos de los problemas

tradicionalmente asociados a los motores de buacutesqueda No todos los agentes

ofrecen acceso a recursos de la Internet invisible e incluso aquellos que asiacute lo hacen

lo presentan como opciones avanzadas normalmente no disponibles en las

versiones ldquosharewarerdquo

BullsEye Intelliseek (wwwintelliseekcom)

Copernic Copernic (wwwcoperniccom)

EZSearch American Systems (wwwamericansyscom)

LexiBot BrightPlanet (wwwlexibotcom)

WebSeeker Blue Squirrel (wwwbluesquirrelcom)

14 Bibliografiacutea

Aguillo Cantildeo Isidro (1999) Del multibuscador al metabuscador las agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

19

trazadores de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten

y la organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada p239-245

Aguillo Cantildeo Isidro (2001) Internet invisible o Infranet definicioacuten clasificacioacuten y

evaluacioacuten En Maldonado Martiacutenez Angeles La informacioacuten especializada en

Internet Madrid CSIC p 161-178

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I Information

World en Espantildeol vol 6 nordm 5 p 22-26

Codina Lluis (2003) Internet invisible y web semaacutentica iquestel futuro de los sistemas

de informacioacuten en liacutenea Revista tradumaacutetica nordm 2 2003

Cornella Alfons (2001) Mensaje 364 de Extra-Net la revista de infonomiacutea La

infranet iquestdoacutende esta el valor

Fernaacutendez de las Heras Joseacute Manuel Diacuteaz de Cerio Pako (2000) La Intranet del

conocimiento IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del

Conocimiento retos y soluciones de los profesionales de la informacioacuten Bilbao 19-

20-21 octubre 2000 p 567-574

Goacutemez Diacuteaz Raquel (2003) La evaluacioacuten en recuperacioacuten de la informacioacutenraquo

Hipertextnet nordm 1 (mayo 2003) httpwwwhipertextnetwebpag238htm

Marcos Mora Mariacutea del Carmen (2005) Elementos visuales en sistemas de

buacutesqueda y recuperacioacuten de la informacioacuten Hipertextnet nordm 3 (mayo 2005)

httpwwwhipertextnetwebpag257htm

Martiacutenez Francisco J Rodriacuteguez Muntildeoz Joseacute Vicente (2004) Reflexiones sobre la

evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesidad utilidad y

viabilidad Anales de documentacioacuten nuacutem 7 (2004) p 153-170

httpwwwumesfccdanalesad07ad0710pdf

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada 1999)

La representacioacuten y la organizacioacuten del conocimiento en sus distintas perspectivas

su influencia en la recuperacioacuten de informacioacuten Granada Isko Universidad de

Granada p 247-248

Vaquero JR (1997) Motores de buacutesqueda Information World en Espantildeol vol 6

nordm 7-8 p 31-32

Vidal Bordeacutes Francisco Javier Salvador Olivaacuten Joseacute Antonio (2000) La

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

20

implementacioacuten de metadatos y Dublin Core en sedes y paacuteginas web de bibliotecas

y centros de documentacioacuten de universidades y centros de investigacioacuten de la Red

IRIS IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del Conocimiento

retos y soluciones de los profesionales de la informacioacuten Bilbao 19-20-21 octubre

2000 p 197-210

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

21

15 Casos praacutecticos

151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda

PRESENTACIOacuteN

La recuperacioacuten del conocimiento mediante la utilizacioacuten de motores de buacutesqueda

es muy heterogeacutenea Cada motor indexa y recupera de una forma diferente Por

tanto es importante tener unos paraacutemetros para poder evaluar queacute motores de

buacutesqueda son los maacutes adecuados ante una necesidad de informacioacuten

OBJETIVOS

Conocer el funcionamiento de los motores de buacutesqueda

Utilizar una metodologiacutea para la evaluacioacuten de motores de buacutesqueda

ENUNCIADO

El estudiante deberaacute evaluar 3 motores de buacutesqueda de aacutembito internacional para

ello usaraacute una estrategia de buacutesqueda que aplicaraacute en los 3 motores

preseleccionados de forma que puedan apreciarse claramente las diferencias entre

eacutestos

Motores de buacutesqueda Googlecom Yahoocom Altavistacom

Estrategia de buacutesqueda digital libraries

Las caracteriacutesticas que pueden presentar los diferentes motores de buacutesqueda se

van a agrupar en tres apartados recogida de la informacioacuten buacutesqueda y

recuperacioacuten de la informacioacuten y presentacioacuten de los resultados

Recogida de informacioacuten En este apartado hay que determinar si el robot

es capaz de identificar las etiquetas ldquoMETArdquo de los documentos HTML y

extraer informacioacuten de las mismas para ser usada en la buacutesqueda o

presentacioacuten de resultados

Buacutesqueda Las caracteriacutesticas baacutesicas que un motor de buacutesqueda debe

cumplir desde el punto de vista de la recuperacioacuten de la informacioacuten son las

siguientes

o Formularios de buacutesqueda posibilidad de elegir entre simple o

avanzado

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

22

o Herramientas de buacutesqueda posibilidad de utilizar operadores

booleanos (AND OR NOT) pareacutentesis comillas para los teacuterminos

compuestos o frases y finalmente posibilidad de truncado en

palabras derivadas

o Clasificacioacuten temaacutetica existencia de un iacutendice general para aquellos

que no saben concretar su tema de buacutesqueda

o Campos de buacutesqueda posibilidad de limitar la buacutesqueda a campos

determinados tales como Tiacutetulo URL Descripcioacuten Palabras Clave

Localizacioacuten e Idioma

o Control del vocabulario descubrir si el motor dispone de alguna

herramienta para eliminar sinonimias y polisemias etc

o Deteccioacuten de novedades posibilidad de diferenciar los nuevos

recursos incorporados

Resultados Hay que tener en cuenta si el motor de buacutesqueda permite

elegir entre diferentes formatos de presentacioacuten de los resultados asiacute como

diversos criterios de ordenacioacuten

FORMATO

El establecido en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

23

CUADRO PARA LA EVALUACIOacuteN DE MOTORES DE BUacuteSQUEDA

Recogida de

informacioacuten

Buacutesqueda y Recuperacioacuten de Informacioacuten

Resultados

Formularios

Herramientas de buacutesqueda

Clasif

Campos de buacutesqueda

Format

Orden

MOTORES

Metadata No

Metadata

Simple Avanz

OR

AND

NOT

( )

ldquo ldquo

Tiacutet

URL

Desc

Keyw

Loc

Leng

Control

Vocab

Nov

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

24

152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda

PRESENTACIOacuteN

Una organizacioacuten ha destinado una partida presupuestaria para aumentar la

presencia web del ayuntamiento e implementar servicios y productos de

informacioacuten interactivos para los ciudadanos

Los departamentos de Informaacutetica Documentacioacuten y Comunicacioacuten estaacuten

colaborando en el proceso de compra de nuevo software que permita implementar

estas prestaciones y sea compatible con el back-office de la organizacioacuten

En la proacutexima reunioacuten se va a decidir queacute software para la implementacioacuten de un

motor de buacutesqueda en la Intranet y sitio web del ayuntamiento se va a adquirir

OBJETIVOS

Conocer las caracteriacutesticas de los principales software del mercado para la

implentacioacuten de tecnologiacutea pull para la recuperacioacuten de la informacioacuten

Presentar una aplicacioacuten praacutectica de la gestioacuten del conocimiento

(recuperacioacuten) en un entorno web

Evaluar un paquete de software con relacioacuten a unos criterios teacutecnicos y

metodoloacutegicos preestablecidos

ENUNCIADO

El estudiante es la persona que representa al Departamento de Documentacioacuten en

esta reunioacuten y debes presentar tu propuesta del paquetes de software que maacutes se

adapta a los requerimientos de la organizacioacuten

Los requerimientos establecidos en la reunioacuten anterior son

Software compatible con el Sistema de Informacioacuten del ayuntamiento

Oracle portal sobre UNIX Bases de datos Access y SQL Server JSP y

Dreamweaver Ultradev

Software compatible con cualquier plataforma web Intranet sitio web CD-

ROM DVD

Indexacioacuten de materiales diversos HTML XML asp php pdf doc etc

Entorno usable y familiar para el usuario interno y externo

Opciones de buacutesqueda avanzada operadores booleanos truncamiento

limitaciones de campo y otros

Indexacioacuten de paacuteginas HTML y de texto en varios idiomas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

25

FORMATO

El formato debe centildeirse a los siguientes apartados

1 Metodologiacutea de la evaluacioacuten [el estudiante debe enunciar las fuentes

consultadas y el conjunto de los paquetes de software analizados]

2 Evaluacioacuten del software [el estudiante debe recopilar la siguiente informacioacuten

del paquetes de software seleccionados]

Nombre del SW

Precio

Requerimientos que cumple

Compatibilidad con el sistema de informacioacuten

Compatibilidad con diferentes plataformas web

Indexacioacuten de materiales diversos

Usabilidad del entorno

Opciones de buacutesqueda

Idiomas

3 Propuesta del Departamento de Documentacioacuten[el estudiante debe comentar

algunos puntos a favor yo en contra del software propuesto como opcioacuten 1]

RECURSOS

Sullivan Danny Search Engine Software for your web site

SearchEngineWatchcom Sept 16 2002 (Consultado el 23-05-2006)

httpsearchenginewatchcomresourcessoftwarehtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

26

16 Anexo Introduccioacuten a Google

Presentacioacuten

Internet es una extensa red de documentos de muacuteltiples formatos desde paacuteginas

web en html a documentos de distintos tipos como puedan ser textos imaacutegenes

archivos de sonido o de viacutedeo etc Cuando necesitas buscar cierta informacioacuten en

Internet lo maacutes eficaz es utilizar un buscador ya que estas herramientas disponen

de robots que rastrean la web en busca de informacioacuten e indexan los documentos

seguacuten sus formatos y contenidos de tal forma que muestran a sus usuarios los

documentos relevantes con los criterios de buacutesqueda elegidos

Conocer adecuadamente las propiedades y herramientas de cada buscador nos

puede ayudar a restringir las buacutesquedas a lo que realmente es relevante para

nosotros sin embargo generalmente estos criterios son desconocidos por el

internauta medio ya que se basan en criterios documentales

Google es el buscador maacutes famoso y utilizado realizar una buacutesqueda bien acotada

es necesario incluir el maacuteximo de palabras relevantes para el usuario prestando

especial atencioacuten a los diferentes significados de una palabra Google determina los

resultados por las coincidencias y cercaniacutea de las palabras entre siacute Google tampoco

distingue entre mayuacutesculas y minuacutesculas ni acentos Entrecomillar frases obliga al

buscador a encontrar paacuteginas que tengan esa frase completa

Buacutesqueda sencilla

httpwwwgoogleesintleshelpbasicshtml

iquestQueacute operador booleano utilizan por defecto las buacutesquedas sencillas Pon un

ejemplo

iquestGoogle permite la utilizacioacuten de comodines () para limitar la buacutesqueda Pon un

ejemplo

iquestGoogle diferencia los acentos y las mayuacutesculas y minuacutesculas Pon un ejemplo

Restricciones en la buacutesqueda

httpwwwgoogleesintleshelprefinesearchhtml

iquestCoacutemo se excluye una palabra de una estrategia de buacutesqueda Por ejemplo de la

buacutesqueda [biblioteca arte moderno] queacute debo hacer para excluir la palabra

moderno

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

iquestQueacute debo hacer para buscar una frase por ejemplo [gran hermano]

iquestCoacutemo puedo buscar noticias sobre la guerra de Irak soacutelo en el sitio web del

Elmundoes Especifica la estrategia de buacutesqueda

Buacutesqueda avanzada

httpwwwgoogleesadvanced_searchhl=es

Los buscadores de internet han superado ampliamente las claacutesicas posibilidades de

filtrado de preguntas basadas en el aacutelgebra booleana (operadores Y NO O en

ingleacutes AND OR y NOT) Por ejemplo google descarta por defecto el operador

booleano OR (historia O roma) asumiendo que su base de datos es tan grande

que o intenta ser muy especiacutefico o el resultado obtenido en una consulta de este

tipo tendraacute demasiado ruido esto saldraacuten demasiadas respuestas Aun asiacute nos

permite utilizarlo a voluntad en su buacutesqueda avanzada

Asiacute google busca por defecto con el operador AND (historia Y roma) y es maacutes

aplica por defecto un operador NEAR decreciente NEAR busca paacuteginas en las que

aparezca historia y tambieacuten roma con una o maacutes palabras de separacioacuten entre

ambos conceptos El nuacutemero de palabras se regula por 123 etc copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

27

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 14: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

14

buscadores

Indizadores Permiten indizar y resumir automaacuteticamente diferentes paacuteginas

web y exportar los resultados en diferentes formatos reutilizables por

editores web

Mapeadores Describen iacutentegramente una sede detallando cada fichero y

directorio y proporcionando un mapa de contenidos Permiten obtener

datos numeacutericos que ayudan a evaluar dichos contenidos y establecer una

comparativa entre diferentes sedes web ndash en base a valores como el

tamantildeo la densidad hipermedia de la sede su estructura de niveles la

tipologiacutea de enlaces etc

122 Funcionamiento de los motores de buacutesqueda

Un motor de buacutesqueda estaacute formado por cuatro elementos baacutesicos

1 Un programa (tambieacuten denominado robot rastreador o webcrawler) que recorre

el WWW buscando recursos de informacioacuten y sus respectivas URLs

2 Un sistema automaacutetico de anaacutelisis de contenidos e indexacioacuten de los

documentos localizados por el robot

3 Un sistema de interrogacioacuten generalmente basado en la loacutegica booleana que

permite al usuario expresar su necesidad de informacioacuten

4 Un programa que actuacutea de pasarela entre el servidor de documentos html y la

base de datos

Funcionamiento el motor de buacutesqueda recibe la consulta del usuario (query)

formada por uno o maacutes teacuterminos realiza una consulta interna en la base de datos

que contiene los recursos web indexados y ofrece una lista de aquellos recursos que

cumplen una parte o el total de los requisitos establecidos en la consulta

Generalmente los resultados aparecen ordenados seguacuten una puntuacioacuten (score)

que el programa asocia automaacuteticamente a cada recurso

Para realizar una consulta es necesario tener en cuenta un conjunto de variables

1 Lenguaje de interrogacioacuten que debe ofrecer diferentes tipos de operadores

loacutegicos de comparacioacuten de truncamiento de proximidad de especificacioacuten de

campo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

15

2 Posibilidad de refinar (refine) una buacutesqueda inicial

3 Campos limitadores que nos permitan reducir la buacutesqueda dominios lenguas

paiacuteses fecha de creacioacuten del recurso

4 Buacutesquedas alternativas buacutesqueda simple buacutesqueda avanzada buacutesquedas

combinando operadores e iacutendices temaacuteticos etc

5 Opciones avanzadas buscar diferentes recursos (texto sonido imagen)

guardar y reutilizar buacutesquedas diferentes formatos en los resultados de

buacutesqueda (estaacutendard detallado compacto etc) buacutesqueda de conceptos

relacionados (related topics) consulta directa en bases de datos (infranets)

etc

123 Los metabuscadores

La gran cantidad de informacioacuten y el notable aumento de motores de buacutesqueda

accesibles desemboca en la necesidad de realizar consultas simultaacuteneas en

diferentes motores de buacutesqueda y con una sola estrategia (query) De esta

necesidad surgen los denominados ldquometabuscadoresrdquo que ofrecen nuevas

prestaciones y mejores y maacutes exhaustivos resultados de buacutesqueda

Los metabuscadores permiten automatizar el proceso de realizar una misma

consulta en diversos motores de buacutesqueda lo cual no significa que sea totalmente

exhaustivo puesto que el metabuscador enviacutea la consulta solamente a aquellos

motores de buacutesqueda con los que ha establecido un acuerdo previo

En el funcionamiento de los metabuscadores cabe destacar algunas variables

interesantes Por una lado la exhaustividad no estaacute garantizada (desde el

momento en el que sabemos que un motor de buacutesqueda es capaz de indexar a lo

sumo un 30 de los recursos web disponibles) Por otro los tiempos de respuesta

pueden ser mucho maacutes largos dada la necesidad de realizar muacuteltiples buacutesquedas

simultaacuteneas (Metacrawler permite delimitar el tiempo maacuteximo de espera de 1 a 10

minutos) ademaacutes la recuperacioacuten de recursos duplicados suele ser muy elevada

por ello algunos metabuscadores ya han implementado la utilidad que permite

eliminar los duplicados

124 Tendencia actual de los motores de buacutesqueda

Partiendo de los problemas actuales que presentan los motores de buacutesqueda en

cuanto a su funcionamiento y los resultados ofrecidos se pueden adelantar algunas

viacuteas de solucioacuten futura que marcan la tendencia en la evolucioacuten de los motores de

buacutesqueda

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

16

Los resultados de la buacutesqueda pueden ser satisfactorios o no tanto Los motores de

buacutesqueda ofrecen resultados muy diferentes ante una misma cuestioacuten inicial este

hecho demuestra la poca exhaustividad de los motores en la indexacioacuten de los

recursos web y pone de manifiesto los problemas derivados de la escasez de control

linguumliacutestico

Actualmente se aboga por la incorporacioacuten de herramientas de anaacutelisis linguumliacutestico y

control terminoloacutegico en los motores de buacutesqueda de forma que sea posible

efectuar una recuperacioacuten menos ligada a la comparacioacuten de cadenas de caracteres

y maacutes vinculada a la comparacioacuten de conceptos

La escasa calidad de la informacioacuten recuperada es otro inconveniente de los

actuales motores de buacutesqueda Los mecanismos para aumentar la precisioacuten en la

buacutesqueda (refinamientos buacutesquedas avanzadas acotacioacuten por dominios etc) a

veces no funcionan como cabriacutea esperar A ello hay que antildeadir el miacutenimo valor de

algunos de los sitios web recuperados el porcentaje de recursos repetidos y el

porcentaje de recursos inactivos (que ya no existen fiacutesicamente en la red aunque

continuacutean indexados)

En este sentido se empieza a hablar de una Internet para el gran puacuteblico y una

Internet de los recursos culturales cientiacuteficos y teacutecnicos La especializacioacuten de los

motores de buacutesqueda es una buena viacutea para conseguir mejores servicios de

informacioacuten la especializacioacuten conduce a la concentracioacuten del conocimiento en

ciertos lugares donde los usuarios pueden encontrar faacutecilmente los recursos

relacionados con su aacutembito de conocimiento

13 La Infranet o Internet invisible

La infranet o Internet invisible es el conjunto de recursos accesibles uacutenicamente a

traveacutes de alguacuten tipo de pasarela o formulario web y que por tanto no pueden ser

indizados de forma estructural por los robots de los motores de buacutesqueda

Muchos de estos recursos son de gran calidad y desde el punto de vista del gestor

de informacioacuten tienen una importancia clave en la recuperacioacuten de informacioacuten de

alto valor antildeadido Su invisibilidad para los motores de buacutesqueda implica una

dificultad considerable para la recuperacioacuten efectiva de estos recursos y requiere

aproximaciones novedosas por parte de los profesionales

131 Los recursos de la Internet invisible

La propia heterogeneidad formal de la informacioacuten en Internet puede plantear

dificultades a la hora de entender queacute recursos estaacuten incluido bajo la denominacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

17

de Internet Invisible Con el fin de clarificar queacute contenidos pueden resultar

invisibles se ha considerado una clasificacioacuten que atiende a criterios documentales

Bases de datos bibliograacuteficas se incluyen en este grupo los cataacutelogos de

biblioteca accesibles a traveacutes de una pasarela (OPAC) web otras bases de datos de

referencias bibliograacuteficas (de acceso puacuteblico o restringido ndashregistro previo gratuito o

de pago-) y entidades similares tales como los cataacutelogos de libreriacuteas (ej

Amazoncom)

Bases de datos alfanumeacutericas definidas por exclusioacuten del grupo anterior son

todas las bases de datos que no tienen caraacutecter bibliograacutefico Comprenderiacutea

ademaacutes los recursos llamados de referencia que requiren alguacuten tipo de pasarela de

acceso para su consulta (ej Encyclopaedia Britannica)

Una situacioacuten ligeramente distinta es la planteada por las paacuteginas generadas

dinaacutemicamente (asp jsp php o similares) Dichas paacuteginas soacutelo existen en virtud de

una consulta puntual imposible de realizar por los robots de los motores de

buacutesqueda y cuyo contenido puede alcanzar un considerable grado de

personalizacioacuten Desde un punto de vista documental los contenidos que explotan

estaacuten en una base de datos y por tanto se consideran dentro de esta categoriacutea

Archivos y revistas electroacutenicas se trata de bases de datos que incluyen

documentos a texto completo y que soacutelo se pueden recuperar previa identificacioacuten

de la referencia labor para la que se requiere utilizar una pasarela web simple

(formulario de consulta) o doble (palabra de acceso y formulario de consulta)

Ficheros no HTML o textuales el (relativo) fracaso de HTML original a la hora de

generar paacuteginas con una maquetacioacuten muy rica ha permitido que algunos formatos

de disentildeo maacutes elaborado hayan adquirido popularidad en la web (pdf ps ppt doc)

Estos formatos no textuales no son indizados correctamente por los robots de los

motores de buacutesqueda (excepcioacuten Googlecom ya indiza documentos pdf y los

convierte en HTML) y por tanto constituyen una parte del webespacio invisible que

ha ido adquiriendo cada vez maacutes importancia

132 La recuperacioacuten de la informacioacuten en la Internet invisible

La recuperacioacuten de la informacioacuten en la Internet invisible se apoya

fundamentalmente en la disponibilidad de directorios e iacutendices que identifiquen y

organicen su principales recursos El maacutes importante en el mercado espantildeol es la

sede espantildeola de Internet Invisible httpwwwinternetinvisiblecom

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

18

Las herramientas maacutes importantes para la recuperacioacuten de estos recursos de

informacioacuten invisibles son

Clientes Z3950 La progresiva adopcioacuten del protocolo Z3950 por la mayoriacutea de

las bibliotecas estaacute incrementando el valor de los clientes Z3950 que ya pueden

acceder a una masa criacutetica de recursos

Bookwhere 2000 Sea Change (wwwbookwherecom)

EzCat BookSystems (wwwbooksyscomezcat)

ZNavigator EnWare (wwwenwarees)

ZSearch Infoworks Technology (wwwitcompanycom)

ZPista Ifgenia Plus (wwwifigeniaeszeta)

Agentes inteligentes estos programas se han convertido en herramientas muy

populares en Internet que permiten superar algunos de los problemas

tradicionalmente asociados a los motores de buacutesqueda No todos los agentes

ofrecen acceso a recursos de la Internet invisible e incluso aquellos que asiacute lo hacen

lo presentan como opciones avanzadas normalmente no disponibles en las

versiones ldquosharewarerdquo

BullsEye Intelliseek (wwwintelliseekcom)

Copernic Copernic (wwwcoperniccom)

EZSearch American Systems (wwwamericansyscom)

LexiBot BrightPlanet (wwwlexibotcom)

WebSeeker Blue Squirrel (wwwbluesquirrelcom)

14 Bibliografiacutea

Aguillo Cantildeo Isidro (1999) Del multibuscador al metabuscador las agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

19

trazadores de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten

y la organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada p239-245

Aguillo Cantildeo Isidro (2001) Internet invisible o Infranet definicioacuten clasificacioacuten y

evaluacioacuten En Maldonado Martiacutenez Angeles La informacioacuten especializada en

Internet Madrid CSIC p 161-178

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I Information

World en Espantildeol vol 6 nordm 5 p 22-26

Codina Lluis (2003) Internet invisible y web semaacutentica iquestel futuro de los sistemas

de informacioacuten en liacutenea Revista tradumaacutetica nordm 2 2003

Cornella Alfons (2001) Mensaje 364 de Extra-Net la revista de infonomiacutea La

infranet iquestdoacutende esta el valor

Fernaacutendez de las Heras Joseacute Manuel Diacuteaz de Cerio Pako (2000) La Intranet del

conocimiento IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del

Conocimiento retos y soluciones de los profesionales de la informacioacuten Bilbao 19-

20-21 octubre 2000 p 567-574

Goacutemez Diacuteaz Raquel (2003) La evaluacioacuten en recuperacioacuten de la informacioacutenraquo

Hipertextnet nordm 1 (mayo 2003) httpwwwhipertextnetwebpag238htm

Marcos Mora Mariacutea del Carmen (2005) Elementos visuales en sistemas de

buacutesqueda y recuperacioacuten de la informacioacuten Hipertextnet nordm 3 (mayo 2005)

httpwwwhipertextnetwebpag257htm

Martiacutenez Francisco J Rodriacuteguez Muntildeoz Joseacute Vicente (2004) Reflexiones sobre la

evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesidad utilidad y

viabilidad Anales de documentacioacuten nuacutem 7 (2004) p 153-170

httpwwwumesfccdanalesad07ad0710pdf

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada 1999)

La representacioacuten y la organizacioacuten del conocimiento en sus distintas perspectivas

su influencia en la recuperacioacuten de informacioacuten Granada Isko Universidad de

Granada p 247-248

Vaquero JR (1997) Motores de buacutesqueda Information World en Espantildeol vol 6

nordm 7-8 p 31-32

Vidal Bordeacutes Francisco Javier Salvador Olivaacuten Joseacute Antonio (2000) La

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

20

implementacioacuten de metadatos y Dublin Core en sedes y paacuteginas web de bibliotecas

y centros de documentacioacuten de universidades y centros de investigacioacuten de la Red

IRIS IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del Conocimiento

retos y soluciones de los profesionales de la informacioacuten Bilbao 19-20-21 octubre

2000 p 197-210

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

21

15 Casos praacutecticos

151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda

PRESENTACIOacuteN

La recuperacioacuten del conocimiento mediante la utilizacioacuten de motores de buacutesqueda

es muy heterogeacutenea Cada motor indexa y recupera de una forma diferente Por

tanto es importante tener unos paraacutemetros para poder evaluar queacute motores de

buacutesqueda son los maacutes adecuados ante una necesidad de informacioacuten

OBJETIVOS

Conocer el funcionamiento de los motores de buacutesqueda

Utilizar una metodologiacutea para la evaluacioacuten de motores de buacutesqueda

ENUNCIADO

El estudiante deberaacute evaluar 3 motores de buacutesqueda de aacutembito internacional para

ello usaraacute una estrategia de buacutesqueda que aplicaraacute en los 3 motores

preseleccionados de forma que puedan apreciarse claramente las diferencias entre

eacutestos

Motores de buacutesqueda Googlecom Yahoocom Altavistacom

Estrategia de buacutesqueda digital libraries

Las caracteriacutesticas que pueden presentar los diferentes motores de buacutesqueda se

van a agrupar en tres apartados recogida de la informacioacuten buacutesqueda y

recuperacioacuten de la informacioacuten y presentacioacuten de los resultados

Recogida de informacioacuten En este apartado hay que determinar si el robot

es capaz de identificar las etiquetas ldquoMETArdquo de los documentos HTML y

extraer informacioacuten de las mismas para ser usada en la buacutesqueda o

presentacioacuten de resultados

Buacutesqueda Las caracteriacutesticas baacutesicas que un motor de buacutesqueda debe

cumplir desde el punto de vista de la recuperacioacuten de la informacioacuten son las

siguientes

o Formularios de buacutesqueda posibilidad de elegir entre simple o

avanzado

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

22

o Herramientas de buacutesqueda posibilidad de utilizar operadores

booleanos (AND OR NOT) pareacutentesis comillas para los teacuterminos

compuestos o frases y finalmente posibilidad de truncado en

palabras derivadas

o Clasificacioacuten temaacutetica existencia de un iacutendice general para aquellos

que no saben concretar su tema de buacutesqueda

o Campos de buacutesqueda posibilidad de limitar la buacutesqueda a campos

determinados tales como Tiacutetulo URL Descripcioacuten Palabras Clave

Localizacioacuten e Idioma

o Control del vocabulario descubrir si el motor dispone de alguna

herramienta para eliminar sinonimias y polisemias etc

o Deteccioacuten de novedades posibilidad de diferenciar los nuevos

recursos incorporados

Resultados Hay que tener en cuenta si el motor de buacutesqueda permite

elegir entre diferentes formatos de presentacioacuten de los resultados asiacute como

diversos criterios de ordenacioacuten

FORMATO

El establecido en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

23

CUADRO PARA LA EVALUACIOacuteN DE MOTORES DE BUacuteSQUEDA

Recogida de

informacioacuten

Buacutesqueda y Recuperacioacuten de Informacioacuten

Resultados

Formularios

Herramientas de buacutesqueda

Clasif

Campos de buacutesqueda

Format

Orden

MOTORES

Metadata No

Metadata

Simple Avanz

OR

AND

NOT

( )

ldquo ldquo

Tiacutet

URL

Desc

Keyw

Loc

Leng

Control

Vocab

Nov

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

24

152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda

PRESENTACIOacuteN

Una organizacioacuten ha destinado una partida presupuestaria para aumentar la

presencia web del ayuntamiento e implementar servicios y productos de

informacioacuten interactivos para los ciudadanos

Los departamentos de Informaacutetica Documentacioacuten y Comunicacioacuten estaacuten

colaborando en el proceso de compra de nuevo software que permita implementar

estas prestaciones y sea compatible con el back-office de la organizacioacuten

En la proacutexima reunioacuten se va a decidir queacute software para la implementacioacuten de un

motor de buacutesqueda en la Intranet y sitio web del ayuntamiento se va a adquirir

OBJETIVOS

Conocer las caracteriacutesticas de los principales software del mercado para la

implentacioacuten de tecnologiacutea pull para la recuperacioacuten de la informacioacuten

Presentar una aplicacioacuten praacutectica de la gestioacuten del conocimiento

(recuperacioacuten) en un entorno web

Evaluar un paquete de software con relacioacuten a unos criterios teacutecnicos y

metodoloacutegicos preestablecidos

ENUNCIADO

El estudiante es la persona que representa al Departamento de Documentacioacuten en

esta reunioacuten y debes presentar tu propuesta del paquetes de software que maacutes se

adapta a los requerimientos de la organizacioacuten

Los requerimientos establecidos en la reunioacuten anterior son

Software compatible con el Sistema de Informacioacuten del ayuntamiento

Oracle portal sobre UNIX Bases de datos Access y SQL Server JSP y

Dreamweaver Ultradev

Software compatible con cualquier plataforma web Intranet sitio web CD-

ROM DVD

Indexacioacuten de materiales diversos HTML XML asp php pdf doc etc

Entorno usable y familiar para el usuario interno y externo

Opciones de buacutesqueda avanzada operadores booleanos truncamiento

limitaciones de campo y otros

Indexacioacuten de paacuteginas HTML y de texto en varios idiomas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

25

FORMATO

El formato debe centildeirse a los siguientes apartados

1 Metodologiacutea de la evaluacioacuten [el estudiante debe enunciar las fuentes

consultadas y el conjunto de los paquetes de software analizados]

2 Evaluacioacuten del software [el estudiante debe recopilar la siguiente informacioacuten

del paquetes de software seleccionados]

Nombre del SW

Precio

Requerimientos que cumple

Compatibilidad con el sistema de informacioacuten

Compatibilidad con diferentes plataformas web

Indexacioacuten de materiales diversos

Usabilidad del entorno

Opciones de buacutesqueda

Idiomas

3 Propuesta del Departamento de Documentacioacuten[el estudiante debe comentar

algunos puntos a favor yo en contra del software propuesto como opcioacuten 1]

RECURSOS

Sullivan Danny Search Engine Software for your web site

SearchEngineWatchcom Sept 16 2002 (Consultado el 23-05-2006)

httpsearchenginewatchcomresourcessoftwarehtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

26

16 Anexo Introduccioacuten a Google

Presentacioacuten

Internet es una extensa red de documentos de muacuteltiples formatos desde paacuteginas

web en html a documentos de distintos tipos como puedan ser textos imaacutegenes

archivos de sonido o de viacutedeo etc Cuando necesitas buscar cierta informacioacuten en

Internet lo maacutes eficaz es utilizar un buscador ya que estas herramientas disponen

de robots que rastrean la web en busca de informacioacuten e indexan los documentos

seguacuten sus formatos y contenidos de tal forma que muestran a sus usuarios los

documentos relevantes con los criterios de buacutesqueda elegidos

Conocer adecuadamente las propiedades y herramientas de cada buscador nos

puede ayudar a restringir las buacutesquedas a lo que realmente es relevante para

nosotros sin embargo generalmente estos criterios son desconocidos por el

internauta medio ya que se basan en criterios documentales

Google es el buscador maacutes famoso y utilizado realizar una buacutesqueda bien acotada

es necesario incluir el maacuteximo de palabras relevantes para el usuario prestando

especial atencioacuten a los diferentes significados de una palabra Google determina los

resultados por las coincidencias y cercaniacutea de las palabras entre siacute Google tampoco

distingue entre mayuacutesculas y minuacutesculas ni acentos Entrecomillar frases obliga al

buscador a encontrar paacuteginas que tengan esa frase completa

Buacutesqueda sencilla

httpwwwgoogleesintleshelpbasicshtml

iquestQueacute operador booleano utilizan por defecto las buacutesquedas sencillas Pon un

ejemplo

iquestGoogle permite la utilizacioacuten de comodines () para limitar la buacutesqueda Pon un

ejemplo

iquestGoogle diferencia los acentos y las mayuacutesculas y minuacutesculas Pon un ejemplo

Restricciones en la buacutesqueda

httpwwwgoogleesintleshelprefinesearchhtml

iquestCoacutemo se excluye una palabra de una estrategia de buacutesqueda Por ejemplo de la

buacutesqueda [biblioteca arte moderno] queacute debo hacer para excluir la palabra

moderno

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

iquestQueacute debo hacer para buscar una frase por ejemplo [gran hermano]

iquestCoacutemo puedo buscar noticias sobre la guerra de Irak soacutelo en el sitio web del

Elmundoes Especifica la estrategia de buacutesqueda

Buacutesqueda avanzada

httpwwwgoogleesadvanced_searchhl=es

Los buscadores de internet han superado ampliamente las claacutesicas posibilidades de

filtrado de preguntas basadas en el aacutelgebra booleana (operadores Y NO O en

ingleacutes AND OR y NOT) Por ejemplo google descarta por defecto el operador

booleano OR (historia O roma) asumiendo que su base de datos es tan grande

que o intenta ser muy especiacutefico o el resultado obtenido en una consulta de este

tipo tendraacute demasiado ruido esto saldraacuten demasiadas respuestas Aun asiacute nos

permite utilizarlo a voluntad en su buacutesqueda avanzada

Asiacute google busca por defecto con el operador AND (historia Y roma) y es maacutes

aplica por defecto un operador NEAR decreciente NEAR busca paacuteginas en las que

aparezca historia y tambieacuten roma con una o maacutes palabras de separacioacuten entre

ambos conceptos El nuacutemero de palabras se regula por 123 etc copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

27

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 15: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

15

2 Posibilidad de refinar (refine) una buacutesqueda inicial

3 Campos limitadores que nos permitan reducir la buacutesqueda dominios lenguas

paiacuteses fecha de creacioacuten del recurso

4 Buacutesquedas alternativas buacutesqueda simple buacutesqueda avanzada buacutesquedas

combinando operadores e iacutendices temaacuteticos etc

5 Opciones avanzadas buscar diferentes recursos (texto sonido imagen)

guardar y reutilizar buacutesquedas diferentes formatos en los resultados de

buacutesqueda (estaacutendard detallado compacto etc) buacutesqueda de conceptos

relacionados (related topics) consulta directa en bases de datos (infranets)

etc

123 Los metabuscadores

La gran cantidad de informacioacuten y el notable aumento de motores de buacutesqueda

accesibles desemboca en la necesidad de realizar consultas simultaacuteneas en

diferentes motores de buacutesqueda y con una sola estrategia (query) De esta

necesidad surgen los denominados ldquometabuscadoresrdquo que ofrecen nuevas

prestaciones y mejores y maacutes exhaustivos resultados de buacutesqueda

Los metabuscadores permiten automatizar el proceso de realizar una misma

consulta en diversos motores de buacutesqueda lo cual no significa que sea totalmente

exhaustivo puesto que el metabuscador enviacutea la consulta solamente a aquellos

motores de buacutesqueda con los que ha establecido un acuerdo previo

En el funcionamiento de los metabuscadores cabe destacar algunas variables

interesantes Por una lado la exhaustividad no estaacute garantizada (desde el

momento en el que sabemos que un motor de buacutesqueda es capaz de indexar a lo

sumo un 30 de los recursos web disponibles) Por otro los tiempos de respuesta

pueden ser mucho maacutes largos dada la necesidad de realizar muacuteltiples buacutesquedas

simultaacuteneas (Metacrawler permite delimitar el tiempo maacuteximo de espera de 1 a 10

minutos) ademaacutes la recuperacioacuten de recursos duplicados suele ser muy elevada

por ello algunos metabuscadores ya han implementado la utilidad que permite

eliminar los duplicados

124 Tendencia actual de los motores de buacutesqueda

Partiendo de los problemas actuales que presentan los motores de buacutesqueda en

cuanto a su funcionamiento y los resultados ofrecidos se pueden adelantar algunas

viacuteas de solucioacuten futura que marcan la tendencia en la evolucioacuten de los motores de

buacutesqueda

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

16

Los resultados de la buacutesqueda pueden ser satisfactorios o no tanto Los motores de

buacutesqueda ofrecen resultados muy diferentes ante una misma cuestioacuten inicial este

hecho demuestra la poca exhaustividad de los motores en la indexacioacuten de los

recursos web y pone de manifiesto los problemas derivados de la escasez de control

linguumliacutestico

Actualmente se aboga por la incorporacioacuten de herramientas de anaacutelisis linguumliacutestico y

control terminoloacutegico en los motores de buacutesqueda de forma que sea posible

efectuar una recuperacioacuten menos ligada a la comparacioacuten de cadenas de caracteres

y maacutes vinculada a la comparacioacuten de conceptos

La escasa calidad de la informacioacuten recuperada es otro inconveniente de los

actuales motores de buacutesqueda Los mecanismos para aumentar la precisioacuten en la

buacutesqueda (refinamientos buacutesquedas avanzadas acotacioacuten por dominios etc) a

veces no funcionan como cabriacutea esperar A ello hay que antildeadir el miacutenimo valor de

algunos de los sitios web recuperados el porcentaje de recursos repetidos y el

porcentaje de recursos inactivos (que ya no existen fiacutesicamente en la red aunque

continuacutean indexados)

En este sentido se empieza a hablar de una Internet para el gran puacuteblico y una

Internet de los recursos culturales cientiacuteficos y teacutecnicos La especializacioacuten de los

motores de buacutesqueda es una buena viacutea para conseguir mejores servicios de

informacioacuten la especializacioacuten conduce a la concentracioacuten del conocimiento en

ciertos lugares donde los usuarios pueden encontrar faacutecilmente los recursos

relacionados con su aacutembito de conocimiento

13 La Infranet o Internet invisible

La infranet o Internet invisible es el conjunto de recursos accesibles uacutenicamente a

traveacutes de alguacuten tipo de pasarela o formulario web y que por tanto no pueden ser

indizados de forma estructural por los robots de los motores de buacutesqueda

Muchos de estos recursos son de gran calidad y desde el punto de vista del gestor

de informacioacuten tienen una importancia clave en la recuperacioacuten de informacioacuten de

alto valor antildeadido Su invisibilidad para los motores de buacutesqueda implica una

dificultad considerable para la recuperacioacuten efectiva de estos recursos y requiere

aproximaciones novedosas por parte de los profesionales

131 Los recursos de la Internet invisible

La propia heterogeneidad formal de la informacioacuten en Internet puede plantear

dificultades a la hora de entender queacute recursos estaacuten incluido bajo la denominacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

17

de Internet Invisible Con el fin de clarificar queacute contenidos pueden resultar

invisibles se ha considerado una clasificacioacuten que atiende a criterios documentales

Bases de datos bibliograacuteficas se incluyen en este grupo los cataacutelogos de

biblioteca accesibles a traveacutes de una pasarela (OPAC) web otras bases de datos de

referencias bibliograacuteficas (de acceso puacuteblico o restringido ndashregistro previo gratuito o

de pago-) y entidades similares tales como los cataacutelogos de libreriacuteas (ej

Amazoncom)

Bases de datos alfanumeacutericas definidas por exclusioacuten del grupo anterior son

todas las bases de datos que no tienen caraacutecter bibliograacutefico Comprenderiacutea

ademaacutes los recursos llamados de referencia que requiren alguacuten tipo de pasarela de

acceso para su consulta (ej Encyclopaedia Britannica)

Una situacioacuten ligeramente distinta es la planteada por las paacuteginas generadas

dinaacutemicamente (asp jsp php o similares) Dichas paacuteginas soacutelo existen en virtud de

una consulta puntual imposible de realizar por los robots de los motores de

buacutesqueda y cuyo contenido puede alcanzar un considerable grado de

personalizacioacuten Desde un punto de vista documental los contenidos que explotan

estaacuten en una base de datos y por tanto se consideran dentro de esta categoriacutea

Archivos y revistas electroacutenicas se trata de bases de datos que incluyen

documentos a texto completo y que soacutelo se pueden recuperar previa identificacioacuten

de la referencia labor para la que se requiere utilizar una pasarela web simple

(formulario de consulta) o doble (palabra de acceso y formulario de consulta)

Ficheros no HTML o textuales el (relativo) fracaso de HTML original a la hora de

generar paacuteginas con una maquetacioacuten muy rica ha permitido que algunos formatos

de disentildeo maacutes elaborado hayan adquirido popularidad en la web (pdf ps ppt doc)

Estos formatos no textuales no son indizados correctamente por los robots de los

motores de buacutesqueda (excepcioacuten Googlecom ya indiza documentos pdf y los

convierte en HTML) y por tanto constituyen una parte del webespacio invisible que

ha ido adquiriendo cada vez maacutes importancia

132 La recuperacioacuten de la informacioacuten en la Internet invisible

La recuperacioacuten de la informacioacuten en la Internet invisible se apoya

fundamentalmente en la disponibilidad de directorios e iacutendices que identifiquen y

organicen su principales recursos El maacutes importante en el mercado espantildeol es la

sede espantildeola de Internet Invisible httpwwwinternetinvisiblecom

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

18

Las herramientas maacutes importantes para la recuperacioacuten de estos recursos de

informacioacuten invisibles son

Clientes Z3950 La progresiva adopcioacuten del protocolo Z3950 por la mayoriacutea de

las bibliotecas estaacute incrementando el valor de los clientes Z3950 que ya pueden

acceder a una masa criacutetica de recursos

Bookwhere 2000 Sea Change (wwwbookwherecom)

EzCat BookSystems (wwwbooksyscomezcat)

ZNavigator EnWare (wwwenwarees)

ZSearch Infoworks Technology (wwwitcompanycom)

ZPista Ifgenia Plus (wwwifigeniaeszeta)

Agentes inteligentes estos programas se han convertido en herramientas muy

populares en Internet que permiten superar algunos de los problemas

tradicionalmente asociados a los motores de buacutesqueda No todos los agentes

ofrecen acceso a recursos de la Internet invisible e incluso aquellos que asiacute lo hacen

lo presentan como opciones avanzadas normalmente no disponibles en las

versiones ldquosharewarerdquo

BullsEye Intelliseek (wwwintelliseekcom)

Copernic Copernic (wwwcoperniccom)

EZSearch American Systems (wwwamericansyscom)

LexiBot BrightPlanet (wwwlexibotcom)

WebSeeker Blue Squirrel (wwwbluesquirrelcom)

14 Bibliografiacutea

Aguillo Cantildeo Isidro (1999) Del multibuscador al metabuscador las agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

19

trazadores de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten

y la organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada p239-245

Aguillo Cantildeo Isidro (2001) Internet invisible o Infranet definicioacuten clasificacioacuten y

evaluacioacuten En Maldonado Martiacutenez Angeles La informacioacuten especializada en

Internet Madrid CSIC p 161-178

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I Information

World en Espantildeol vol 6 nordm 5 p 22-26

Codina Lluis (2003) Internet invisible y web semaacutentica iquestel futuro de los sistemas

de informacioacuten en liacutenea Revista tradumaacutetica nordm 2 2003

Cornella Alfons (2001) Mensaje 364 de Extra-Net la revista de infonomiacutea La

infranet iquestdoacutende esta el valor

Fernaacutendez de las Heras Joseacute Manuel Diacuteaz de Cerio Pako (2000) La Intranet del

conocimiento IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del

Conocimiento retos y soluciones de los profesionales de la informacioacuten Bilbao 19-

20-21 octubre 2000 p 567-574

Goacutemez Diacuteaz Raquel (2003) La evaluacioacuten en recuperacioacuten de la informacioacutenraquo

Hipertextnet nordm 1 (mayo 2003) httpwwwhipertextnetwebpag238htm

Marcos Mora Mariacutea del Carmen (2005) Elementos visuales en sistemas de

buacutesqueda y recuperacioacuten de la informacioacuten Hipertextnet nordm 3 (mayo 2005)

httpwwwhipertextnetwebpag257htm

Martiacutenez Francisco J Rodriacuteguez Muntildeoz Joseacute Vicente (2004) Reflexiones sobre la

evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesidad utilidad y

viabilidad Anales de documentacioacuten nuacutem 7 (2004) p 153-170

httpwwwumesfccdanalesad07ad0710pdf

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada 1999)

La representacioacuten y la organizacioacuten del conocimiento en sus distintas perspectivas

su influencia en la recuperacioacuten de informacioacuten Granada Isko Universidad de

Granada p 247-248

Vaquero JR (1997) Motores de buacutesqueda Information World en Espantildeol vol 6

nordm 7-8 p 31-32

Vidal Bordeacutes Francisco Javier Salvador Olivaacuten Joseacute Antonio (2000) La

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

20

implementacioacuten de metadatos y Dublin Core en sedes y paacuteginas web de bibliotecas

y centros de documentacioacuten de universidades y centros de investigacioacuten de la Red

IRIS IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del Conocimiento

retos y soluciones de los profesionales de la informacioacuten Bilbao 19-20-21 octubre

2000 p 197-210

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

21

15 Casos praacutecticos

151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda

PRESENTACIOacuteN

La recuperacioacuten del conocimiento mediante la utilizacioacuten de motores de buacutesqueda

es muy heterogeacutenea Cada motor indexa y recupera de una forma diferente Por

tanto es importante tener unos paraacutemetros para poder evaluar queacute motores de

buacutesqueda son los maacutes adecuados ante una necesidad de informacioacuten

OBJETIVOS

Conocer el funcionamiento de los motores de buacutesqueda

Utilizar una metodologiacutea para la evaluacioacuten de motores de buacutesqueda

ENUNCIADO

El estudiante deberaacute evaluar 3 motores de buacutesqueda de aacutembito internacional para

ello usaraacute una estrategia de buacutesqueda que aplicaraacute en los 3 motores

preseleccionados de forma que puedan apreciarse claramente las diferencias entre

eacutestos

Motores de buacutesqueda Googlecom Yahoocom Altavistacom

Estrategia de buacutesqueda digital libraries

Las caracteriacutesticas que pueden presentar los diferentes motores de buacutesqueda se

van a agrupar en tres apartados recogida de la informacioacuten buacutesqueda y

recuperacioacuten de la informacioacuten y presentacioacuten de los resultados

Recogida de informacioacuten En este apartado hay que determinar si el robot

es capaz de identificar las etiquetas ldquoMETArdquo de los documentos HTML y

extraer informacioacuten de las mismas para ser usada en la buacutesqueda o

presentacioacuten de resultados

Buacutesqueda Las caracteriacutesticas baacutesicas que un motor de buacutesqueda debe

cumplir desde el punto de vista de la recuperacioacuten de la informacioacuten son las

siguientes

o Formularios de buacutesqueda posibilidad de elegir entre simple o

avanzado

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

22

o Herramientas de buacutesqueda posibilidad de utilizar operadores

booleanos (AND OR NOT) pareacutentesis comillas para los teacuterminos

compuestos o frases y finalmente posibilidad de truncado en

palabras derivadas

o Clasificacioacuten temaacutetica existencia de un iacutendice general para aquellos

que no saben concretar su tema de buacutesqueda

o Campos de buacutesqueda posibilidad de limitar la buacutesqueda a campos

determinados tales como Tiacutetulo URL Descripcioacuten Palabras Clave

Localizacioacuten e Idioma

o Control del vocabulario descubrir si el motor dispone de alguna

herramienta para eliminar sinonimias y polisemias etc

o Deteccioacuten de novedades posibilidad de diferenciar los nuevos

recursos incorporados

Resultados Hay que tener en cuenta si el motor de buacutesqueda permite

elegir entre diferentes formatos de presentacioacuten de los resultados asiacute como

diversos criterios de ordenacioacuten

FORMATO

El establecido en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

23

CUADRO PARA LA EVALUACIOacuteN DE MOTORES DE BUacuteSQUEDA

Recogida de

informacioacuten

Buacutesqueda y Recuperacioacuten de Informacioacuten

Resultados

Formularios

Herramientas de buacutesqueda

Clasif

Campos de buacutesqueda

Format

Orden

MOTORES

Metadata No

Metadata

Simple Avanz

OR

AND

NOT

( )

ldquo ldquo

Tiacutet

URL

Desc

Keyw

Loc

Leng

Control

Vocab

Nov

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

24

152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda

PRESENTACIOacuteN

Una organizacioacuten ha destinado una partida presupuestaria para aumentar la

presencia web del ayuntamiento e implementar servicios y productos de

informacioacuten interactivos para los ciudadanos

Los departamentos de Informaacutetica Documentacioacuten y Comunicacioacuten estaacuten

colaborando en el proceso de compra de nuevo software que permita implementar

estas prestaciones y sea compatible con el back-office de la organizacioacuten

En la proacutexima reunioacuten se va a decidir queacute software para la implementacioacuten de un

motor de buacutesqueda en la Intranet y sitio web del ayuntamiento se va a adquirir

OBJETIVOS

Conocer las caracteriacutesticas de los principales software del mercado para la

implentacioacuten de tecnologiacutea pull para la recuperacioacuten de la informacioacuten

Presentar una aplicacioacuten praacutectica de la gestioacuten del conocimiento

(recuperacioacuten) en un entorno web

Evaluar un paquete de software con relacioacuten a unos criterios teacutecnicos y

metodoloacutegicos preestablecidos

ENUNCIADO

El estudiante es la persona que representa al Departamento de Documentacioacuten en

esta reunioacuten y debes presentar tu propuesta del paquetes de software que maacutes se

adapta a los requerimientos de la organizacioacuten

Los requerimientos establecidos en la reunioacuten anterior son

Software compatible con el Sistema de Informacioacuten del ayuntamiento

Oracle portal sobre UNIX Bases de datos Access y SQL Server JSP y

Dreamweaver Ultradev

Software compatible con cualquier plataforma web Intranet sitio web CD-

ROM DVD

Indexacioacuten de materiales diversos HTML XML asp php pdf doc etc

Entorno usable y familiar para el usuario interno y externo

Opciones de buacutesqueda avanzada operadores booleanos truncamiento

limitaciones de campo y otros

Indexacioacuten de paacuteginas HTML y de texto en varios idiomas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

25

FORMATO

El formato debe centildeirse a los siguientes apartados

1 Metodologiacutea de la evaluacioacuten [el estudiante debe enunciar las fuentes

consultadas y el conjunto de los paquetes de software analizados]

2 Evaluacioacuten del software [el estudiante debe recopilar la siguiente informacioacuten

del paquetes de software seleccionados]

Nombre del SW

Precio

Requerimientos que cumple

Compatibilidad con el sistema de informacioacuten

Compatibilidad con diferentes plataformas web

Indexacioacuten de materiales diversos

Usabilidad del entorno

Opciones de buacutesqueda

Idiomas

3 Propuesta del Departamento de Documentacioacuten[el estudiante debe comentar

algunos puntos a favor yo en contra del software propuesto como opcioacuten 1]

RECURSOS

Sullivan Danny Search Engine Software for your web site

SearchEngineWatchcom Sept 16 2002 (Consultado el 23-05-2006)

httpsearchenginewatchcomresourcessoftwarehtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

26

16 Anexo Introduccioacuten a Google

Presentacioacuten

Internet es una extensa red de documentos de muacuteltiples formatos desde paacuteginas

web en html a documentos de distintos tipos como puedan ser textos imaacutegenes

archivos de sonido o de viacutedeo etc Cuando necesitas buscar cierta informacioacuten en

Internet lo maacutes eficaz es utilizar un buscador ya que estas herramientas disponen

de robots que rastrean la web en busca de informacioacuten e indexan los documentos

seguacuten sus formatos y contenidos de tal forma que muestran a sus usuarios los

documentos relevantes con los criterios de buacutesqueda elegidos

Conocer adecuadamente las propiedades y herramientas de cada buscador nos

puede ayudar a restringir las buacutesquedas a lo que realmente es relevante para

nosotros sin embargo generalmente estos criterios son desconocidos por el

internauta medio ya que se basan en criterios documentales

Google es el buscador maacutes famoso y utilizado realizar una buacutesqueda bien acotada

es necesario incluir el maacuteximo de palabras relevantes para el usuario prestando

especial atencioacuten a los diferentes significados de una palabra Google determina los

resultados por las coincidencias y cercaniacutea de las palabras entre siacute Google tampoco

distingue entre mayuacutesculas y minuacutesculas ni acentos Entrecomillar frases obliga al

buscador a encontrar paacuteginas que tengan esa frase completa

Buacutesqueda sencilla

httpwwwgoogleesintleshelpbasicshtml

iquestQueacute operador booleano utilizan por defecto las buacutesquedas sencillas Pon un

ejemplo

iquestGoogle permite la utilizacioacuten de comodines () para limitar la buacutesqueda Pon un

ejemplo

iquestGoogle diferencia los acentos y las mayuacutesculas y minuacutesculas Pon un ejemplo

Restricciones en la buacutesqueda

httpwwwgoogleesintleshelprefinesearchhtml

iquestCoacutemo se excluye una palabra de una estrategia de buacutesqueda Por ejemplo de la

buacutesqueda [biblioteca arte moderno] queacute debo hacer para excluir la palabra

moderno

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

iquestQueacute debo hacer para buscar una frase por ejemplo [gran hermano]

iquestCoacutemo puedo buscar noticias sobre la guerra de Irak soacutelo en el sitio web del

Elmundoes Especifica la estrategia de buacutesqueda

Buacutesqueda avanzada

httpwwwgoogleesadvanced_searchhl=es

Los buscadores de internet han superado ampliamente las claacutesicas posibilidades de

filtrado de preguntas basadas en el aacutelgebra booleana (operadores Y NO O en

ingleacutes AND OR y NOT) Por ejemplo google descarta por defecto el operador

booleano OR (historia O roma) asumiendo que su base de datos es tan grande

que o intenta ser muy especiacutefico o el resultado obtenido en una consulta de este

tipo tendraacute demasiado ruido esto saldraacuten demasiadas respuestas Aun asiacute nos

permite utilizarlo a voluntad en su buacutesqueda avanzada

Asiacute google busca por defecto con el operador AND (historia Y roma) y es maacutes

aplica por defecto un operador NEAR decreciente NEAR busca paacuteginas en las que

aparezca historia y tambieacuten roma con una o maacutes palabras de separacioacuten entre

ambos conceptos El nuacutemero de palabras se regula por 123 etc copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

27

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 16: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

16

Los resultados de la buacutesqueda pueden ser satisfactorios o no tanto Los motores de

buacutesqueda ofrecen resultados muy diferentes ante una misma cuestioacuten inicial este

hecho demuestra la poca exhaustividad de los motores en la indexacioacuten de los

recursos web y pone de manifiesto los problemas derivados de la escasez de control

linguumliacutestico

Actualmente se aboga por la incorporacioacuten de herramientas de anaacutelisis linguumliacutestico y

control terminoloacutegico en los motores de buacutesqueda de forma que sea posible

efectuar una recuperacioacuten menos ligada a la comparacioacuten de cadenas de caracteres

y maacutes vinculada a la comparacioacuten de conceptos

La escasa calidad de la informacioacuten recuperada es otro inconveniente de los

actuales motores de buacutesqueda Los mecanismos para aumentar la precisioacuten en la

buacutesqueda (refinamientos buacutesquedas avanzadas acotacioacuten por dominios etc) a

veces no funcionan como cabriacutea esperar A ello hay que antildeadir el miacutenimo valor de

algunos de los sitios web recuperados el porcentaje de recursos repetidos y el

porcentaje de recursos inactivos (que ya no existen fiacutesicamente en la red aunque

continuacutean indexados)

En este sentido se empieza a hablar de una Internet para el gran puacuteblico y una

Internet de los recursos culturales cientiacuteficos y teacutecnicos La especializacioacuten de los

motores de buacutesqueda es una buena viacutea para conseguir mejores servicios de

informacioacuten la especializacioacuten conduce a la concentracioacuten del conocimiento en

ciertos lugares donde los usuarios pueden encontrar faacutecilmente los recursos

relacionados con su aacutembito de conocimiento

13 La Infranet o Internet invisible

La infranet o Internet invisible es el conjunto de recursos accesibles uacutenicamente a

traveacutes de alguacuten tipo de pasarela o formulario web y que por tanto no pueden ser

indizados de forma estructural por los robots de los motores de buacutesqueda

Muchos de estos recursos son de gran calidad y desde el punto de vista del gestor

de informacioacuten tienen una importancia clave en la recuperacioacuten de informacioacuten de

alto valor antildeadido Su invisibilidad para los motores de buacutesqueda implica una

dificultad considerable para la recuperacioacuten efectiva de estos recursos y requiere

aproximaciones novedosas por parte de los profesionales

131 Los recursos de la Internet invisible

La propia heterogeneidad formal de la informacioacuten en Internet puede plantear

dificultades a la hora de entender queacute recursos estaacuten incluido bajo la denominacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

17

de Internet Invisible Con el fin de clarificar queacute contenidos pueden resultar

invisibles se ha considerado una clasificacioacuten que atiende a criterios documentales

Bases de datos bibliograacuteficas se incluyen en este grupo los cataacutelogos de

biblioteca accesibles a traveacutes de una pasarela (OPAC) web otras bases de datos de

referencias bibliograacuteficas (de acceso puacuteblico o restringido ndashregistro previo gratuito o

de pago-) y entidades similares tales como los cataacutelogos de libreriacuteas (ej

Amazoncom)

Bases de datos alfanumeacutericas definidas por exclusioacuten del grupo anterior son

todas las bases de datos que no tienen caraacutecter bibliograacutefico Comprenderiacutea

ademaacutes los recursos llamados de referencia que requiren alguacuten tipo de pasarela de

acceso para su consulta (ej Encyclopaedia Britannica)

Una situacioacuten ligeramente distinta es la planteada por las paacuteginas generadas

dinaacutemicamente (asp jsp php o similares) Dichas paacuteginas soacutelo existen en virtud de

una consulta puntual imposible de realizar por los robots de los motores de

buacutesqueda y cuyo contenido puede alcanzar un considerable grado de

personalizacioacuten Desde un punto de vista documental los contenidos que explotan

estaacuten en una base de datos y por tanto se consideran dentro de esta categoriacutea

Archivos y revistas electroacutenicas se trata de bases de datos que incluyen

documentos a texto completo y que soacutelo se pueden recuperar previa identificacioacuten

de la referencia labor para la que se requiere utilizar una pasarela web simple

(formulario de consulta) o doble (palabra de acceso y formulario de consulta)

Ficheros no HTML o textuales el (relativo) fracaso de HTML original a la hora de

generar paacuteginas con una maquetacioacuten muy rica ha permitido que algunos formatos

de disentildeo maacutes elaborado hayan adquirido popularidad en la web (pdf ps ppt doc)

Estos formatos no textuales no son indizados correctamente por los robots de los

motores de buacutesqueda (excepcioacuten Googlecom ya indiza documentos pdf y los

convierte en HTML) y por tanto constituyen una parte del webespacio invisible que

ha ido adquiriendo cada vez maacutes importancia

132 La recuperacioacuten de la informacioacuten en la Internet invisible

La recuperacioacuten de la informacioacuten en la Internet invisible se apoya

fundamentalmente en la disponibilidad de directorios e iacutendices que identifiquen y

organicen su principales recursos El maacutes importante en el mercado espantildeol es la

sede espantildeola de Internet Invisible httpwwwinternetinvisiblecom

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

18

Las herramientas maacutes importantes para la recuperacioacuten de estos recursos de

informacioacuten invisibles son

Clientes Z3950 La progresiva adopcioacuten del protocolo Z3950 por la mayoriacutea de

las bibliotecas estaacute incrementando el valor de los clientes Z3950 que ya pueden

acceder a una masa criacutetica de recursos

Bookwhere 2000 Sea Change (wwwbookwherecom)

EzCat BookSystems (wwwbooksyscomezcat)

ZNavigator EnWare (wwwenwarees)

ZSearch Infoworks Technology (wwwitcompanycom)

ZPista Ifgenia Plus (wwwifigeniaeszeta)

Agentes inteligentes estos programas se han convertido en herramientas muy

populares en Internet que permiten superar algunos de los problemas

tradicionalmente asociados a los motores de buacutesqueda No todos los agentes

ofrecen acceso a recursos de la Internet invisible e incluso aquellos que asiacute lo hacen

lo presentan como opciones avanzadas normalmente no disponibles en las

versiones ldquosharewarerdquo

BullsEye Intelliseek (wwwintelliseekcom)

Copernic Copernic (wwwcoperniccom)

EZSearch American Systems (wwwamericansyscom)

LexiBot BrightPlanet (wwwlexibotcom)

WebSeeker Blue Squirrel (wwwbluesquirrelcom)

14 Bibliografiacutea

Aguillo Cantildeo Isidro (1999) Del multibuscador al metabuscador las agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

19

trazadores de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten

y la organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada p239-245

Aguillo Cantildeo Isidro (2001) Internet invisible o Infranet definicioacuten clasificacioacuten y

evaluacioacuten En Maldonado Martiacutenez Angeles La informacioacuten especializada en

Internet Madrid CSIC p 161-178

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I Information

World en Espantildeol vol 6 nordm 5 p 22-26

Codina Lluis (2003) Internet invisible y web semaacutentica iquestel futuro de los sistemas

de informacioacuten en liacutenea Revista tradumaacutetica nordm 2 2003

Cornella Alfons (2001) Mensaje 364 de Extra-Net la revista de infonomiacutea La

infranet iquestdoacutende esta el valor

Fernaacutendez de las Heras Joseacute Manuel Diacuteaz de Cerio Pako (2000) La Intranet del

conocimiento IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del

Conocimiento retos y soluciones de los profesionales de la informacioacuten Bilbao 19-

20-21 octubre 2000 p 567-574

Goacutemez Diacuteaz Raquel (2003) La evaluacioacuten en recuperacioacuten de la informacioacutenraquo

Hipertextnet nordm 1 (mayo 2003) httpwwwhipertextnetwebpag238htm

Marcos Mora Mariacutea del Carmen (2005) Elementos visuales en sistemas de

buacutesqueda y recuperacioacuten de la informacioacuten Hipertextnet nordm 3 (mayo 2005)

httpwwwhipertextnetwebpag257htm

Martiacutenez Francisco J Rodriacuteguez Muntildeoz Joseacute Vicente (2004) Reflexiones sobre la

evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesidad utilidad y

viabilidad Anales de documentacioacuten nuacutem 7 (2004) p 153-170

httpwwwumesfccdanalesad07ad0710pdf

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada 1999)

La representacioacuten y la organizacioacuten del conocimiento en sus distintas perspectivas

su influencia en la recuperacioacuten de informacioacuten Granada Isko Universidad de

Granada p 247-248

Vaquero JR (1997) Motores de buacutesqueda Information World en Espantildeol vol 6

nordm 7-8 p 31-32

Vidal Bordeacutes Francisco Javier Salvador Olivaacuten Joseacute Antonio (2000) La

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

20

implementacioacuten de metadatos y Dublin Core en sedes y paacuteginas web de bibliotecas

y centros de documentacioacuten de universidades y centros de investigacioacuten de la Red

IRIS IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del Conocimiento

retos y soluciones de los profesionales de la informacioacuten Bilbao 19-20-21 octubre

2000 p 197-210

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

21

15 Casos praacutecticos

151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda

PRESENTACIOacuteN

La recuperacioacuten del conocimiento mediante la utilizacioacuten de motores de buacutesqueda

es muy heterogeacutenea Cada motor indexa y recupera de una forma diferente Por

tanto es importante tener unos paraacutemetros para poder evaluar queacute motores de

buacutesqueda son los maacutes adecuados ante una necesidad de informacioacuten

OBJETIVOS

Conocer el funcionamiento de los motores de buacutesqueda

Utilizar una metodologiacutea para la evaluacioacuten de motores de buacutesqueda

ENUNCIADO

El estudiante deberaacute evaluar 3 motores de buacutesqueda de aacutembito internacional para

ello usaraacute una estrategia de buacutesqueda que aplicaraacute en los 3 motores

preseleccionados de forma que puedan apreciarse claramente las diferencias entre

eacutestos

Motores de buacutesqueda Googlecom Yahoocom Altavistacom

Estrategia de buacutesqueda digital libraries

Las caracteriacutesticas que pueden presentar los diferentes motores de buacutesqueda se

van a agrupar en tres apartados recogida de la informacioacuten buacutesqueda y

recuperacioacuten de la informacioacuten y presentacioacuten de los resultados

Recogida de informacioacuten En este apartado hay que determinar si el robot

es capaz de identificar las etiquetas ldquoMETArdquo de los documentos HTML y

extraer informacioacuten de las mismas para ser usada en la buacutesqueda o

presentacioacuten de resultados

Buacutesqueda Las caracteriacutesticas baacutesicas que un motor de buacutesqueda debe

cumplir desde el punto de vista de la recuperacioacuten de la informacioacuten son las

siguientes

o Formularios de buacutesqueda posibilidad de elegir entre simple o

avanzado

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

22

o Herramientas de buacutesqueda posibilidad de utilizar operadores

booleanos (AND OR NOT) pareacutentesis comillas para los teacuterminos

compuestos o frases y finalmente posibilidad de truncado en

palabras derivadas

o Clasificacioacuten temaacutetica existencia de un iacutendice general para aquellos

que no saben concretar su tema de buacutesqueda

o Campos de buacutesqueda posibilidad de limitar la buacutesqueda a campos

determinados tales como Tiacutetulo URL Descripcioacuten Palabras Clave

Localizacioacuten e Idioma

o Control del vocabulario descubrir si el motor dispone de alguna

herramienta para eliminar sinonimias y polisemias etc

o Deteccioacuten de novedades posibilidad de diferenciar los nuevos

recursos incorporados

Resultados Hay que tener en cuenta si el motor de buacutesqueda permite

elegir entre diferentes formatos de presentacioacuten de los resultados asiacute como

diversos criterios de ordenacioacuten

FORMATO

El establecido en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

23

CUADRO PARA LA EVALUACIOacuteN DE MOTORES DE BUacuteSQUEDA

Recogida de

informacioacuten

Buacutesqueda y Recuperacioacuten de Informacioacuten

Resultados

Formularios

Herramientas de buacutesqueda

Clasif

Campos de buacutesqueda

Format

Orden

MOTORES

Metadata No

Metadata

Simple Avanz

OR

AND

NOT

( )

ldquo ldquo

Tiacutet

URL

Desc

Keyw

Loc

Leng

Control

Vocab

Nov

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

24

152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda

PRESENTACIOacuteN

Una organizacioacuten ha destinado una partida presupuestaria para aumentar la

presencia web del ayuntamiento e implementar servicios y productos de

informacioacuten interactivos para los ciudadanos

Los departamentos de Informaacutetica Documentacioacuten y Comunicacioacuten estaacuten

colaborando en el proceso de compra de nuevo software que permita implementar

estas prestaciones y sea compatible con el back-office de la organizacioacuten

En la proacutexima reunioacuten se va a decidir queacute software para la implementacioacuten de un

motor de buacutesqueda en la Intranet y sitio web del ayuntamiento se va a adquirir

OBJETIVOS

Conocer las caracteriacutesticas de los principales software del mercado para la

implentacioacuten de tecnologiacutea pull para la recuperacioacuten de la informacioacuten

Presentar una aplicacioacuten praacutectica de la gestioacuten del conocimiento

(recuperacioacuten) en un entorno web

Evaluar un paquete de software con relacioacuten a unos criterios teacutecnicos y

metodoloacutegicos preestablecidos

ENUNCIADO

El estudiante es la persona que representa al Departamento de Documentacioacuten en

esta reunioacuten y debes presentar tu propuesta del paquetes de software que maacutes se

adapta a los requerimientos de la organizacioacuten

Los requerimientos establecidos en la reunioacuten anterior son

Software compatible con el Sistema de Informacioacuten del ayuntamiento

Oracle portal sobre UNIX Bases de datos Access y SQL Server JSP y

Dreamweaver Ultradev

Software compatible con cualquier plataforma web Intranet sitio web CD-

ROM DVD

Indexacioacuten de materiales diversos HTML XML asp php pdf doc etc

Entorno usable y familiar para el usuario interno y externo

Opciones de buacutesqueda avanzada operadores booleanos truncamiento

limitaciones de campo y otros

Indexacioacuten de paacuteginas HTML y de texto en varios idiomas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

25

FORMATO

El formato debe centildeirse a los siguientes apartados

1 Metodologiacutea de la evaluacioacuten [el estudiante debe enunciar las fuentes

consultadas y el conjunto de los paquetes de software analizados]

2 Evaluacioacuten del software [el estudiante debe recopilar la siguiente informacioacuten

del paquetes de software seleccionados]

Nombre del SW

Precio

Requerimientos que cumple

Compatibilidad con el sistema de informacioacuten

Compatibilidad con diferentes plataformas web

Indexacioacuten de materiales diversos

Usabilidad del entorno

Opciones de buacutesqueda

Idiomas

3 Propuesta del Departamento de Documentacioacuten[el estudiante debe comentar

algunos puntos a favor yo en contra del software propuesto como opcioacuten 1]

RECURSOS

Sullivan Danny Search Engine Software for your web site

SearchEngineWatchcom Sept 16 2002 (Consultado el 23-05-2006)

httpsearchenginewatchcomresourcessoftwarehtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

26

16 Anexo Introduccioacuten a Google

Presentacioacuten

Internet es una extensa red de documentos de muacuteltiples formatos desde paacuteginas

web en html a documentos de distintos tipos como puedan ser textos imaacutegenes

archivos de sonido o de viacutedeo etc Cuando necesitas buscar cierta informacioacuten en

Internet lo maacutes eficaz es utilizar un buscador ya que estas herramientas disponen

de robots que rastrean la web en busca de informacioacuten e indexan los documentos

seguacuten sus formatos y contenidos de tal forma que muestran a sus usuarios los

documentos relevantes con los criterios de buacutesqueda elegidos

Conocer adecuadamente las propiedades y herramientas de cada buscador nos

puede ayudar a restringir las buacutesquedas a lo que realmente es relevante para

nosotros sin embargo generalmente estos criterios son desconocidos por el

internauta medio ya que se basan en criterios documentales

Google es el buscador maacutes famoso y utilizado realizar una buacutesqueda bien acotada

es necesario incluir el maacuteximo de palabras relevantes para el usuario prestando

especial atencioacuten a los diferentes significados de una palabra Google determina los

resultados por las coincidencias y cercaniacutea de las palabras entre siacute Google tampoco

distingue entre mayuacutesculas y minuacutesculas ni acentos Entrecomillar frases obliga al

buscador a encontrar paacuteginas que tengan esa frase completa

Buacutesqueda sencilla

httpwwwgoogleesintleshelpbasicshtml

iquestQueacute operador booleano utilizan por defecto las buacutesquedas sencillas Pon un

ejemplo

iquestGoogle permite la utilizacioacuten de comodines () para limitar la buacutesqueda Pon un

ejemplo

iquestGoogle diferencia los acentos y las mayuacutesculas y minuacutesculas Pon un ejemplo

Restricciones en la buacutesqueda

httpwwwgoogleesintleshelprefinesearchhtml

iquestCoacutemo se excluye una palabra de una estrategia de buacutesqueda Por ejemplo de la

buacutesqueda [biblioteca arte moderno] queacute debo hacer para excluir la palabra

moderno

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

iquestQueacute debo hacer para buscar una frase por ejemplo [gran hermano]

iquestCoacutemo puedo buscar noticias sobre la guerra de Irak soacutelo en el sitio web del

Elmundoes Especifica la estrategia de buacutesqueda

Buacutesqueda avanzada

httpwwwgoogleesadvanced_searchhl=es

Los buscadores de internet han superado ampliamente las claacutesicas posibilidades de

filtrado de preguntas basadas en el aacutelgebra booleana (operadores Y NO O en

ingleacutes AND OR y NOT) Por ejemplo google descarta por defecto el operador

booleano OR (historia O roma) asumiendo que su base de datos es tan grande

que o intenta ser muy especiacutefico o el resultado obtenido en una consulta de este

tipo tendraacute demasiado ruido esto saldraacuten demasiadas respuestas Aun asiacute nos

permite utilizarlo a voluntad en su buacutesqueda avanzada

Asiacute google busca por defecto con el operador AND (historia Y roma) y es maacutes

aplica por defecto un operador NEAR decreciente NEAR busca paacuteginas en las que

aparezca historia y tambieacuten roma con una o maacutes palabras de separacioacuten entre

ambos conceptos El nuacutemero de palabras se regula por 123 etc copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

27

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 17: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

17

de Internet Invisible Con el fin de clarificar queacute contenidos pueden resultar

invisibles se ha considerado una clasificacioacuten que atiende a criterios documentales

Bases de datos bibliograacuteficas se incluyen en este grupo los cataacutelogos de

biblioteca accesibles a traveacutes de una pasarela (OPAC) web otras bases de datos de

referencias bibliograacuteficas (de acceso puacuteblico o restringido ndashregistro previo gratuito o

de pago-) y entidades similares tales como los cataacutelogos de libreriacuteas (ej

Amazoncom)

Bases de datos alfanumeacutericas definidas por exclusioacuten del grupo anterior son

todas las bases de datos que no tienen caraacutecter bibliograacutefico Comprenderiacutea

ademaacutes los recursos llamados de referencia que requiren alguacuten tipo de pasarela de

acceso para su consulta (ej Encyclopaedia Britannica)

Una situacioacuten ligeramente distinta es la planteada por las paacuteginas generadas

dinaacutemicamente (asp jsp php o similares) Dichas paacuteginas soacutelo existen en virtud de

una consulta puntual imposible de realizar por los robots de los motores de

buacutesqueda y cuyo contenido puede alcanzar un considerable grado de

personalizacioacuten Desde un punto de vista documental los contenidos que explotan

estaacuten en una base de datos y por tanto se consideran dentro de esta categoriacutea

Archivos y revistas electroacutenicas se trata de bases de datos que incluyen

documentos a texto completo y que soacutelo se pueden recuperar previa identificacioacuten

de la referencia labor para la que se requiere utilizar una pasarela web simple

(formulario de consulta) o doble (palabra de acceso y formulario de consulta)

Ficheros no HTML o textuales el (relativo) fracaso de HTML original a la hora de

generar paacuteginas con una maquetacioacuten muy rica ha permitido que algunos formatos

de disentildeo maacutes elaborado hayan adquirido popularidad en la web (pdf ps ppt doc)

Estos formatos no textuales no son indizados correctamente por los robots de los

motores de buacutesqueda (excepcioacuten Googlecom ya indiza documentos pdf y los

convierte en HTML) y por tanto constituyen una parte del webespacio invisible que

ha ido adquiriendo cada vez maacutes importancia

132 La recuperacioacuten de la informacioacuten en la Internet invisible

La recuperacioacuten de la informacioacuten en la Internet invisible se apoya

fundamentalmente en la disponibilidad de directorios e iacutendices que identifiquen y

organicen su principales recursos El maacutes importante en el mercado espantildeol es la

sede espantildeola de Internet Invisible httpwwwinternetinvisiblecom

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

18

Las herramientas maacutes importantes para la recuperacioacuten de estos recursos de

informacioacuten invisibles son

Clientes Z3950 La progresiva adopcioacuten del protocolo Z3950 por la mayoriacutea de

las bibliotecas estaacute incrementando el valor de los clientes Z3950 que ya pueden

acceder a una masa criacutetica de recursos

Bookwhere 2000 Sea Change (wwwbookwherecom)

EzCat BookSystems (wwwbooksyscomezcat)

ZNavigator EnWare (wwwenwarees)

ZSearch Infoworks Technology (wwwitcompanycom)

ZPista Ifgenia Plus (wwwifigeniaeszeta)

Agentes inteligentes estos programas se han convertido en herramientas muy

populares en Internet que permiten superar algunos de los problemas

tradicionalmente asociados a los motores de buacutesqueda No todos los agentes

ofrecen acceso a recursos de la Internet invisible e incluso aquellos que asiacute lo hacen

lo presentan como opciones avanzadas normalmente no disponibles en las

versiones ldquosharewarerdquo

BullsEye Intelliseek (wwwintelliseekcom)

Copernic Copernic (wwwcoperniccom)

EZSearch American Systems (wwwamericansyscom)

LexiBot BrightPlanet (wwwlexibotcom)

WebSeeker Blue Squirrel (wwwbluesquirrelcom)

14 Bibliografiacutea

Aguillo Cantildeo Isidro (1999) Del multibuscador al metabuscador las agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

19

trazadores de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten

y la organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada p239-245

Aguillo Cantildeo Isidro (2001) Internet invisible o Infranet definicioacuten clasificacioacuten y

evaluacioacuten En Maldonado Martiacutenez Angeles La informacioacuten especializada en

Internet Madrid CSIC p 161-178

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I Information

World en Espantildeol vol 6 nordm 5 p 22-26

Codina Lluis (2003) Internet invisible y web semaacutentica iquestel futuro de los sistemas

de informacioacuten en liacutenea Revista tradumaacutetica nordm 2 2003

Cornella Alfons (2001) Mensaje 364 de Extra-Net la revista de infonomiacutea La

infranet iquestdoacutende esta el valor

Fernaacutendez de las Heras Joseacute Manuel Diacuteaz de Cerio Pako (2000) La Intranet del

conocimiento IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del

Conocimiento retos y soluciones de los profesionales de la informacioacuten Bilbao 19-

20-21 octubre 2000 p 567-574

Goacutemez Diacuteaz Raquel (2003) La evaluacioacuten en recuperacioacuten de la informacioacutenraquo

Hipertextnet nordm 1 (mayo 2003) httpwwwhipertextnetwebpag238htm

Marcos Mora Mariacutea del Carmen (2005) Elementos visuales en sistemas de

buacutesqueda y recuperacioacuten de la informacioacuten Hipertextnet nordm 3 (mayo 2005)

httpwwwhipertextnetwebpag257htm

Martiacutenez Francisco J Rodriacuteguez Muntildeoz Joseacute Vicente (2004) Reflexiones sobre la

evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesidad utilidad y

viabilidad Anales de documentacioacuten nuacutem 7 (2004) p 153-170

httpwwwumesfccdanalesad07ad0710pdf

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada 1999)

La representacioacuten y la organizacioacuten del conocimiento en sus distintas perspectivas

su influencia en la recuperacioacuten de informacioacuten Granada Isko Universidad de

Granada p 247-248

Vaquero JR (1997) Motores de buacutesqueda Information World en Espantildeol vol 6

nordm 7-8 p 31-32

Vidal Bordeacutes Francisco Javier Salvador Olivaacuten Joseacute Antonio (2000) La

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

20

implementacioacuten de metadatos y Dublin Core en sedes y paacuteginas web de bibliotecas

y centros de documentacioacuten de universidades y centros de investigacioacuten de la Red

IRIS IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del Conocimiento

retos y soluciones de los profesionales de la informacioacuten Bilbao 19-20-21 octubre

2000 p 197-210

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

21

15 Casos praacutecticos

151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda

PRESENTACIOacuteN

La recuperacioacuten del conocimiento mediante la utilizacioacuten de motores de buacutesqueda

es muy heterogeacutenea Cada motor indexa y recupera de una forma diferente Por

tanto es importante tener unos paraacutemetros para poder evaluar queacute motores de

buacutesqueda son los maacutes adecuados ante una necesidad de informacioacuten

OBJETIVOS

Conocer el funcionamiento de los motores de buacutesqueda

Utilizar una metodologiacutea para la evaluacioacuten de motores de buacutesqueda

ENUNCIADO

El estudiante deberaacute evaluar 3 motores de buacutesqueda de aacutembito internacional para

ello usaraacute una estrategia de buacutesqueda que aplicaraacute en los 3 motores

preseleccionados de forma que puedan apreciarse claramente las diferencias entre

eacutestos

Motores de buacutesqueda Googlecom Yahoocom Altavistacom

Estrategia de buacutesqueda digital libraries

Las caracteriacutesticas que pueden presentar los diferentes motores de buacutesqueda se

van a agrupar en tres apartados recogida de la informacioacuten buacutesqueda y

recuperacioacuten de la informacioacuten y presentacioacuten de los resultados

Recogida de informacioacuten En este apartado hay que determinar si el robot

es capaz de identificar las etiquetas ldquoMETArdquo de los documentos HTML y

extraer informacioacuten de las mismas para ser usada en la buacutesqueda o

presentacioacuten de resultados

Buacutesqueda Las caracteriacutesticas baacutesicas que un motor de buacutesqueda debe

cumplir desde el punto de vista de la recuperacioacuten de la informacioacuten son las

siguientes

o Formularios de buacutesqueda posibilidad de elegir entre simple o

avanzado

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

22

o Herramientas de buacutesqueda posibilidad de utilizar operadores

booleanos (AND OR NOT) pareacutentesis comillas para los teacuterminos

compuestos o frases y finalmente posibilidad de truncado en

palabras derivadas

o Clasificacioacuten temaacutetica existencia de un iacutendice general para aquellos

que no saben concretar su tema de buacutesqueda

o Campos de buacutesqueda posibilidad de limitar la buacutesqueda a campos

determinados tales como Tiacutetulo URL Descripcioacuten Palabras Clave

Localizacioacuten e Idioma

o Control del vocabulario descubrir si el motor dispone de alguna

herramienta para eliminar sinonimias y polisemias etc

o Deteccioacuten de novedades posibilidad de diferenciar los nuevos

recursos incorporados

Resultados Hay que tener en cuenta si el motor de buacutesqueda permite

elegir entre diferentes formatos de presentacioacuten de los resultados asiacute como

diversos criterios de ordenacioacuten

FORMATO

El establecido en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

23

CUADRO PARA LA EVALUACIOacuteN DE MOTORES DE BUacuteSQUEDA

Recogida de

informacioacuten

Buacutesqueda y Recuperacioacuten de Informacioacuten

Resultados

Formularios

Herramientas de buacutesqueda

Clasif

Campos de buacutesqueda

Format

Orden

MOTORES

Metadata No

Metadata

Simple Avanz

OR

AND

NOT

( )

ldquo ldquo

Tiacutet

URL

Desc

Keyw

Loc

Leng

Control

Vocab

Nov

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

24

152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda

PRESENTACIOacuteN

Una organizacioacuten ha destinado una partida presupuestaria para aumentar la

presencia web del ayuntamiento e implementar servicios y productos de

informacioacuten interactivos para los ciudadanos

Los departamentos de Informaacutetica Documentacioacuten y Comunicacioacuten estaacuten

colaborando en el proceso de compra de nuevo software que permita implementar

estas prestaciones y sea compatible con el back-office de la organizacioacuten

En la proacutexima reunioacuten se va a decidir queacute software para la implementacioacuten de un

motor de buacutesqueda en la Intranet y sitio web del ayuntamiento se va a adquirir

OBJETIVOS

Conocer las caracteriacutesticas de los principales software del mercado para la

implentacioacuten de tecnologiacutea pull para la recuperacioacuten de la informacioacuten

Presentar una aplicacioacuten praacutectica de la gestioacuten del conocimiento

(recuperacioacuten) en un entorno web

Evaluar un paquete de software con relacioacuten a unos criterios teacutecnicos y

metodoloacutegicos preestablecidos

ENUNCIADO

El estudiante es la persona que representa al Departamento de Documentacioacuten en

esta reunioacuten y debes presentar tu propuesta del paquetes de software que maacutes se

adapta a los requerimientos de la organizacioacuten

Los requerimientos establecidos en la reunioacuten anterior son

Software compatible con el Sistema de Informacioacuten del ayuntamiento

Oracle portal sobre UNIX Bases de datos Access y SQL Server JSP y

Dreamweaver Ultradev

Software compatible con cualquier plataforma web Intranet sitio web CD-

ROM DVD

Indexacioacuten de materiales diversos HTML XML asp php pdf doc etc

Entorno usable y familiar para el usuario interno y externo

Opciones de buacutesqueda avanzada operadores booleanos truncamiento

limitaciones de campo y otros

Indexacioacuten de paacuteginas HTML y de texto en varios idiomas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

25

FORMATO

El formato debe centildeirse a los siguientes apartados

1 Metodologiacutea de la evaluacioacuten [el estudiante debe enunciar las fuentes

consultadas y el conjunto de los paquetes de software analizados]

2 Evaluacioacuten del software [el estudiante debe recopilar la siguiente informacioacuten

del paquetes de software seleccionados]

Nombre del SW

Precio

Requerimientos que cumple

Compatibilidad con el sistema de informacioacuten

Compatibilidad con diferentes plataformas web

Indexacioacuten de materiales diversos

Usabilidad del entorno

Opciones de buacutesqueda

Idiomas

3 Propuesta del Departamento de Documentacioacuten[el estudiante debe comentar

algunos puntos a favor yo en contra del software propuesto como opcioacuten 1]

RECURSOS

Sullivan Danny Search Engine Software for your web site

SearchEngineWatchcom Sept 16 2002 (Consultado el 23-05-2006)

httpsearchenginewatchcomresourcessoftwarehtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

26

16 Anexo Introduccioacuten a Google

Presentacioacuten

Internet es una extensa red de documentos de muacuteltiples formatos desde paacuteginas

web en html a documentos de distintos tipos como puedan ser textos imaacutegenes

archivos de sonido o de viacutedeo etc Cuando necesitas buscar cierta informacioacuten en

Internet lo maacutes eficaz es utilizar un buscador ya que estas herramientas disponen

de robots que rastrean la web en busca de informacioacuten e indexan los documentos

seguacuten sus formatos y contenidos de tal forma que muestran a sus usuarios los

documentos relevantes con los criterios de buacutesqueda elegidos

Conocer adecuadamente las propiedades y herramientas de cada buscador nos

puede ayudar a restringir las buacutesquedas a lo que realmente es relevante para

nosotros sin embargo generalmente estos criterios son desconocidos por el

internauta medio ya que se basan en criterios documentales

Google es el buscador maacutes famoso y utilizado realizar una buacutesqueda bien acotada

es necesario incluir el maacuteximo de palabras relevantes para el usuario prestando

especial atencioacuten a los diferentes significados de una palabra Google determina los

resultados por las coincidencias y cercaniacutea de las palabras entre siacute Google tampoco

distingue entre mayuacutesculas y minuacutesculas ni acentos Entrecomillar frases obliga al

buscador a encontrar paacuteginas que tengan esa frase completa

Buacutesqueda sencilla

httpwwwgoogleesintleshelpbasicshtml

iquestQueacute operador booleano utilizan por defecto las buacutesquedas sencillas Pon un

ejemplo

iquestGoogle permite la utilizacioacuten de comodines () para limitar la buacutesqueda Pon un

ejemplo

iquestGoogle diferencia los acentos y las mayuacutesculas y minuacutesculas Pon un ejemplo

Restricciones en la buacutesqueda

httpwwwgoogleesintleshelprefinesearchhtml

iquestCoacutemo se excluye una palabra de una estrategia de buacutesqueda Por ejemplo de la

buacutesqueda [biblioteca arte moderno] queacute debo hacer para excluir la palabra

moderno

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

iquestQueacute debo hacer para buscar una frase por ejemplo [gran hermano]

iquestCoacutemo puedo buscar noticias sobre la guerra de Irak soacutelo en el sitio web del

Elmundoes Especifica la estrategia de buacutesqueda

Buacutesqueda avanzada

httpwwwgoogleesadvanced_searchhl=es

Los buscadores de internet han superado ampliamente las claacutesicas posibilidades de

filtrado de preguntas basadas en el aacutelgebra booleana (operadores Y NO O en

ingleacutes AND OR y NOT) Por ejemplo google descarta por defecto el operador

booleano OR (historia O roma) asumiendo que su base de datos es tan grande

que o intenta ser muy especiacutefico o el resultado obtenido en una consulta de este

tipo tendraacute demasiado ruido esto saldraacuten demasiadas respuestas Aun asiacute nos

permite utilizarlo a voluntad en su buacutesqueda avanzada

Asiacute google busca por defecto con el operador AND (historia Y roma) y es maacutes

aplica por defecto un operador NEAR decreciente NEAR busca paacuteginas en las que

aparezca historia y tambieacuten roma con una o maacutes palabras de separacioacuten entre

ambos conceptos El nuacutemero de palabras se regula por 123 etc copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

27

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 18: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

18

Las herramientas maacutes importantes para la recuperacioacuten de estos recursos de

informacioacuten invisibles son

Clientes Z3950 La progresiva adopcioacuten del protocolo Z3950 por la mayoriacutea de

las bibliotecas estaacute incrementando el valor de los clientes Z3950 que ya pueden

acceder a una masa criacutetica de recursos

Bookwhere 2000 Sea Change (wwwbookwherecom)

EzCat BookSystems (wwwbooksyscomezcat)

ZNavigator EnWare (wwwenwarees)

ZSearch Infoworks Technology (wwwitcompanycom)

ZPista Ifgenia Plus (wwwifigeniaeszeta)

Agentes inteligentes estos programas se han convertido en herramientas muy

populares en Internet que permiten superar algunos de los problemas

tradicionalmente asociados a los motores de buacutesqueda No todos los agentes

ofrecen acceso a recursos de la Internet invisible e incluso aquellos que asiacute lo hacen

lo presentan como opciones avanzadas normalmente no disponibles en las

versiones ldquosharewarerdquo

BullsEye Intelliseek (wwwintelliseekcom)

Copernic Copernic (wwwcoperniccom)

EZSearch American Systems (wwwamericansyscom)

LexiBot BrightPlanet (wwwlexibotcom)

WebSeeker Blue Squirrel (wwwbluesquirrelcom)

14 Bibliografiacutea

Aguillo Cantildeo Isidro (1999) Del multibuscador al metabuscador las agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

19

trazadores de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten

y la organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada p239-245

Aguillo Cantildeo Isidro (2001) Internet invisible o Infranet definicioacuten clasificacioacuten y

evaluacioacuten En Maldonado Martiacutenez Angeles La informacioacuten especializada en

Internet Madrid CSIC p 161-178

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I Information

World en Espantildeol vol 6 nordm 5 p 22-26

Codina Lluis (2003) Internet invisible y web semaacutentica iquestel futuro de los sistemas

de informacioacuten en liacutenea Revista tradumaacutetica nordm 2 2003

Cornella Alfons (2001) Mensaje 364 de Extra-Net la revista de infonomiacutea La

infranet iquestdoacutende esta el valor

Fernaacutendez de las Heras Joseacute Manuel Diacuteaz de Cerio Pako (2000) La Intranet del

conocimiento IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del

Conocimiento retos y soluciones de los profesionales de la informacioacuten Bilbao 19-

20-21 octubre 2000 p 567-574

Goacutemez Diacuteaz Raquel (2003) La evaluacioacuten en recuperacioacuten de la informacioacutenraquo

Hipertextnet nordm 1 (mayo 2003) httpwwwhipertextnetwebpag238htm

Marcos Mora Mariacutea del Carmen (2005) Elementos visuales en sistemas de

buacutesqueda y recuperacioacuten de la informacioacuten Hipertextnet nordm 3 (mayo 2005)

httpwwwhipertextnetwebpag257htm

Martiacutenez Francisco J Rodriacuteguez Muntildeoz Joseacute Vicente (2004) Reflexiones sobre la

evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesidad utilidad y

viabilidad Anales de documentacioacuten nuacutem 7 (2004) p 153-170

httpwwwumesfccdanalesad07ad0710pdf

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada 1999)

La representacioacuten y la organizacioacuten del conocimiento en sus distintas perspectivas

su influencia en la recuperacioacuten de informacioacuten Granada Isko Universidad de

Granada p 247-248

Vaquero JR (1997) Motores de buacutesqueda Information World en Espantildeol vol 6

nordm 7-8 p 31-32

Vidal Bordeacutes Francisco Javier Salvador Olivaacuten Joseacute Antonio (2000) La

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

20

implementacioacuten de metadatos y Dublin Core en sedes y paacuteginas web de bibliotecas

y centros de documentacioacuten de universidades y centros de investigacioacuten de la Red

IRIS IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del Conocimiento

retos y soluciones de los profesionales de la informacioacuten Bilbao 19-20-21 octubre

2000 p 197-210

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

21

15 Casos praacutecticos

151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda

PRESENTACIOacuteN

La recuperacioacuten del conocimiento mediante la utilizacioacuten de motores de buacutesqueda

es muy heterogeacutenea Cada motor indexa y recupera de una forma diferente Por

tanto es importante tener unos paraacutemetros para poder evaluar queacute motores de

buacutesqueda son los maacutes adecuados ante una necesidad de informacioacuten

OBJETIVOS

Conocer el funcionamiento de los motores de buacutesqueda

Utilizar una metodologiacutea para la evaluacioacuten de motores de buacutesqueda

ENUNCIADO

El estudiante deberaacute evaluar 3 motores de buacutesqueda de aacutembito internacional para

ello usaraacute una estrategia de buacutesqueda que aplicaraacute en los 3 motores

preseleccionados de forma que puedan apreciarse claramente las diferencias entre

eacutestos

Motores de buacutesqueda Googlecom Yahoocom Altavistacom

Estrategia de buacutesqueda digital libraries

Las caracteriacutesticas que pueden presentar los diferentes motores de buacutesqueda se

van a agrupar en tres apartados recogida de la informacioacuten buacutesqueda y

recuperacioacuten de la informacioacuten y presentacioacuten de los resultados

Recogida de informacioacuten En este apartado hay que determinar si el robot

es capaz de identificar las etiquetas ldquoMETArdquo de los documentos HTML y

extraer informacioacuten de las mismas para ser usada en la buacutesqueda o

presentacioacuten de resultados

Buacutesqueda Las caracteriacutesticas baacutesicas que un motor de buacutesqueda debe

cumplir desde el punto de vista de la recuperacioacuten de la informacioacuten son las

siguientes

o Formularios de buacutesqueda posibilidad de elegir entre simple o

avanzado

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

22

o Herramientas de buacutesqueda posibilidad de utilizar operadores

booleanos (AND OR NOT) pareacutentesis comillas para los teacuterminos

compuestos o frases y finalmente posibilidad de truncado en

palabras derivadas

o Clasificacioacuten temaacutetica existencia de un iacutendice general para aquellos

que no saben concretar su tema de buacutesqueda

o Campos de buacutesqueda posibilidad de limitar la buacutesqueda a campos

determinados tales como Tiacutetulo URL Descripcioacuten Palabras Clave

Localizacioacuten e Idioma

o Control del vocabulario descubrir si el motor dispone de alguna

herramienta para eliminar sinonimias y polisemias etc

o Deteccioacuten de novedades posibilidad de diferenciar los nuevos

recursos incorporados

Resultados Hay que tener en cuenta si el motor de buacutesqueda permite

elegir entre diferentes formatos de presentacioacuten de los resultados asiacute como

diversos criterios de ordenacioacuten

FORMATO

El establecido en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

23

CUADRO PARA LA EVALUACIOacuteN DE MOTORES DE BUacuteSQUEDA

Recogida de

informacioacuten

Buacutesqueda y Recuperacioacuten de Informacioacuten

Resultados

Formularios

Herramientas de buacutesqueda

Clasif

Campos de buacutesqueda

Format

Orden

MOTORES

Metadata No

Metadata

Simple Avanz

OR

AND

NOT

( )

ldquo ldquo

Tiacutet

URL

Desc

Keyw

Loc

Leng

Control

Vocab

Nov

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

24

152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda

PRESENTACIOacuteN

Una organizacioacuten ha destinado una partida presupuestaria para aumentar la

presencia web del ayuntamiento e implementar servicios y productos de

informacioacuten interactivos para los ciudadanos

Los departamentos de Informaacutetica Documentacioacuten y Comunicacioacuten estaacuten

colaborando en el proceso de compra de nuevo software que permita implementar

estas prestaciones y sea compatible con el back-office de la organizacioacuten

En la proacutexima reunioacuten se va a decidir queacute software para la implementacioacuten de un

motor de buacutesqueda en la Intranet y sitio web del ayuntamiento se va a adquirir

OBJETIVOS

Conocer las caracteriacutesticas de los principales software del mercado para la

implentacioacuten de tecnologiacutea pull para la recuperacioacuten de la informacioacuten

Presentar una aplicacioacuten praacutectica de la gestioacuten del conocimiento

(recuperacioacuten) en un entorno web

Evaluar un paquete de software con relacioacuten a unos criterios teacutecnicos y

metodoloacutegicos preestablecidos

ENUNCIADO

El estudiante es la persona que representa al Departamento de Documentacioacuten en

esta reunioacuten y debes presentar tu propuesta del paquetes de software que maacutes se

adapta a los requerimientos de la organizacioacuten

Los requerimientos establecidos en la reunioacuten anterior son

Software compatible con el Sistema de Informacioacuten del ayuntamiento

Oracle portal sobre UNIX Bases de datos Access y SQL Server JSP y

Dreamweaver Ultradev

Software compatible con cualquier plataforma web Intranet sitio web CD-

ROM DVD

Indexacioacuten de materiales diversos HTML XML asp php pdf doc etc

Entorno usable y familiar para el usuario interno y externo

Opciones de buacutesqueda avanzada operadores booleanos truncamiento

limitaciones de campo y otros

Indexacioacuten de paacuteginas HTML y de texto en varios idiomas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

25

FORMATO

El formato debe centildeirse a los siguientes apartados

1 Metodologiacutea de la evaluacioacuten [el estudiante debe enunciar las fuentes

consultadas y el conjunto de los paquetes de software analizados]

2 Evaluacioacuten del software [el estudiante debe recopilar la siguiente informacioacuten

del paquetes de software seleccionados]

Nombre del SW

Precio

Requerimientos que cumple

Compatibilidad con el sistema de informacioacuten

Compatibilidad con diferentes plataformas web

Indexacioacuten de materiales diversos

Usabilidad del entorno

Opciones de buacutesqueda

Idiomas

3 Propuesta del Departamento de Documentacioacuten[el estudiante debe comentar

algunos puntos a favor yo en contra del software propuesto como opcioacuten 1]

RECURSOS

Sullivan Danny Search Engine Software for your web site

SearchEngineWatchcom Sept 16 2002 (Consultado el 23-05-2006)

httpsearchenginewatchcomresourcessoftwarehtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

26

16 Anexo Introduccioacuten a Google

Presentacioacuten

Internet es una extensa red de documentos de muacuteltiples formatos desde paacuteginas

web en html a documentos de distintos tipos como puedan ser textos imaacutegenes

archivos de sonido o de viacutedeo etc Cuando necesitas buscar cierta informacioacuten en

Internet lo maacutes eficaz es utilizar un buscador ya que estas herramientas disponen

de robots que rastrean la web en busca de informacioacuten e indexan los documentos

seguacuten sus formatos y contenidos de tal forma que muestran a sus usuarios los

documentos relevantes con los criterios de buacutesqueda elegidos

Conocer adecuadamente las propiedades y herramientas de cada buscador nos

puede ayudar a restringir las buacutesquedas a lo que realmente es relevante para

nosotros sin embargo generalmente estos criterios son desconocidos por el

internauta medio ya que se basan en criterios documentales

Google es el buscador maacutes famoso y utilizado realizar una buacutesqueda bien acotada

es necesario incluir el maacuteximo de palabras relevantes para el usuario prestando

especial atencioacuten a los diferentes significados de una palabra Google determina los

resultados por las coincidencias y cercaniacutea de las palabras entre siacute Google tampoco

distingue entre mayuacutesculas y minuacutesculas ni acentos Entrecomillar frases obliga al

buscador a encontrar paacuteginas que tengan esa frase completa

Buacutesqueda sencilla

httpwwwgoogleesintleshelpbasicshtml

iquestQueacute operador booleano utilizan por defecto las buacutesquedas sencillas Pon un

ejemplo

iquestGoogle permite la utilizacioacuten de comodines () para limitar la buacutesqueda Pon un

ejemplo

iquestGoogle diferencia los acentos y las mayuacutesculas y minuacutesculas Pon un ejemplo

Restricciones en la buacutesqueda

httpwwwgoogleesintleshelprefinesearchhtml

iquestCoacutemo se excluye una palabra de una estrategia de buacutesqueda Por ejemplo de la

buacutesqueda [biblioteca arte moderno] queacute debo hacer para excluir la palabra

moderno

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

iquestQueacute debo hacer para buscar una frase por ejemplo [gran hermano]

iquestCoacutemo puedo buscar noticias sobre la guerra de Irak soacutelo en el sitio web del

Elmundoes Especifica la estrategia de buacutesqueda

Buacutesqueda avanzada

httpwwwgoogleesadvanced_searchhl=es

Los buscadores de internet han superado ampliamente las claacutesicas posibilidades de

filtrado de preguntas basadas en el aacutelgebra booleana (operadores Y NO O en

ingleacutes AND OR y NOT) Por ejemplo google descarta por defecto el operador

booleano OR (historia O roma) asumiendo que su base de datos es tan grande

que o intenta ser muy especiacutefico o el resultado obtenido en una consulta de este

tipo tendraacute demasiado ruido esto saldraacuten demasiadas respuestas Aun asiacute nos

permite utilizarlo a voluntad en su buacutesqueda avanzada

Asiacute google busca por defecto con el operador AND (historia Y roma) y es maacutes

aplica por defecto un operador NEAR decreciente NEAR busca paacuteginas en las que

aparezca historia y tambieacuten roma con una o maacutes palabras de separacioacuten entre

ambos conceptos El nuacutemero de palabras se regula por 123 etc copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

27

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 19: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

19

trazadores de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten

y la organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada p239-245

Aguillo Cantildeo Isidro (2001) Internet invisible o Infranet definicioacuten clasificacioacuten y

evaluacioacuten En Maldonado Martiacutenez Angeles La informacioacuten especializada en

Internet Madrid CSIC p 161-178

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I Information

World en Espantildeol vol 6 nordm 5 p 22-26

Codina Lluis (2003) Internet invisible y web semaacutentica iquestel futuro de los sistemas

de informacioacuten en liacutenea Revista tradumaacutetica nordm 2 2003

Cornella Alfons (2001) Mensaje 364 de Extra-Net la revista de infonomiacutea La

infranet iquestdoacutende esta el valor

Fernaacutendez de las Heras Joseacute Manuel Diacuteaz de Cerio Pako (2000) La Intranet del

conocimiento IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del

Conocimiento retos y soluciones de los profesionales de la informacioacuten Bilbao 19-

20-21 octubre 2000 p 567-574

Goacutemez Diacuteaz Raquel (2003) La evaluacioacuten en recuperacioacuten de la informacioacutenraquo

Hipertextnet nordm 1 (mayo 2003) httpwwwhipertextnetwebpag238htm

Marcos Mora Mariacutea del Carmen (2005) Elementos visuales en sistemas de

buacutesqueda y recuperacioacuten de la informacioacuten Hipertextnet nordm 3 (mayo 2005)

httpwwwhipertextnetwebpag257htm

Martiacutenez Francisco J Rodriacuteguez Muntildeoz Joseacute Vicente (2004) Reflexiones sobre la

evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesidad utilidad y

viabilidad Anales de documentacioacuten nuacutem 7 (2004) p 153-170

httpwwwumesfccdanalesad07ad0710pdf

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada 1999)

La representacioacuten y la organizacioacuten del conocimiento en sus distintas perspectivas

su influencia en la recuperacioacuten de informacioacuten Granada Isko Universidad de

Granada p 247-248

Vaquero JR (1997) Motores de buacutesqueda Information World en Espantildeol vol 6

nordm 7-8 p 31-32

Vidal Bordeacutes Francisco Javier Salvador Olivaacuten Joseacute Antonio (2000) La

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

20

implementacioacuten de metadatos y Dublin Core en sedes y paacuteginas web de bibliotecas

y centros de documentacioacuten de universidades y centros de investigacioacuten de la Red

IRIS IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del Conocimiento

retos y soluciones de los profesionales de la informacioacuten Bilbao 19-20-21 octubre

2000 p 197-210

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

21

15 Casos praacutecticos

151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda

PRESENTACIOacuteN

La recuperacioacuten del conocimiento mediante la utilizacioacuten de motores de buacutesqueda

es muy heterogeacutenea Cada motor indexa y recupera de una forma diferente Por

tanto es importante tener unos paraacutemetros para poder evaluar queacute motores de

buacutesqueda son los maacutes adecuados ante una necesidad de informacioacuten

OBJETIVOS

Conocer el funcionamiento de los motores de buacutesqueda

Utilizar una metodologiacutea para la evaluacioacuten de motores de buacutesqueda

ENUNCIADO

El estudiante deberaacute evaluar 3 motores de buacutesqueda de aacutembito internacional para

ello usaraacute una estrategia de buacutesqueda que aplicaraacute en los 3 motores

preseleccionados de forma que puedan apreciarse claramente las diferencias entre

eacutestos

Motores de buacutesqueda Googlecom Yahoocom Altavistacom

Estrategia de buacutesqueda digital libraries

Las caracteriacutesticas que pueden presentar los diferentes motores de buacutesqueda se

van a agrupar en tres apartados recogida de la informacioacuten buacutesqueda y

recuperacioacuten de la informacioacuten y presentacioacuten de los resultados

Recogida de informacioacuten En este apartado hay que determinar si el robot

es capaz de identificar las etiquetas ldquoMETArdquo de los documentos HTML y

extraer informacioacuten de las mismas para ser usada en la buacutesqueda o

presentacioacuten de resultados

Buacutesqueda Las caracteriacutesticas baacutesicas que un motor de buacutesqueda debe

cumplir desde el punto de vista de la recuperacioacuten de la informacioacuten son las

siguientes

o Formularios de buacutesqueda posibilidad de elegir entre simple o

avanzado

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

22

o Herramientas de buacutesqueda posibilidad de utilizar operadores

booleanos (AND OR NOT) pareacutentesis comillas para los teacuterminos

compuestos o frases y finalmente posibilidad de truncado en

palabras derivadas

o Clasificacioacuten temaacutetica existencia de un iacutendice general para aquellos

que no saben concretar su tema de buacutesqueda

o Campos de buacutesqueda posibilidad de limitar la buacutesqueda a campos

determinados tales como Tiacutetulo URL Descripcioacuten Palabras Clave

Localizacioacuten e Idioma

o Control del vocabulario descubrir si el motor dispone de alguna

herramienta para eliminar sinonimias y polisemias etc

o Deteccioacuten de novedades posibilidad de diferenciar los nuevos

recursos incorporados

Resultados Hay que tener en cuenta si el motor de buacutesqueda permite

elegir entre diferentes formatos de presentacioacuten de los resultados asiacute como

diversos criterios de ordenacioacuten

FORMATO

El establecido en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

23

CUADRO PARA LA EVALUACIOacuteN DE MOTORES DE BUacuteSQUEDA

Recogida de

informacioacuten

Buacutesqueda y Recuperacioacuten de Informacioacuten

Resultados

Formularios

Herramientas de buacutesqueda

Clasif

Campos de buacutesqueda

Format

Orden

MOTORES

Metadata No

Metadata

Simple Avanz

OR

AND

NOT

( )

ldquo ldquo

Tiacutet

URL

Desc

Keyw

Loc

Leng

Control

Vocab

Nov

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

24

152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda

PRESENTACIOacuteN

Una organizacioacuten ha destinado una partida presupuestaria para aumentar la

presencia web del ayuntamiento e implementar servicios y productos de

informacioacuten interactivos para los ciudadanos

Los departamentos de Informaacutetica Documentacioacuten y Comunicacioacuten estaacuten

colaborando en el proceso de compra de nuevo software que permita implementar

estas prestaciones y sea compatible con el back-office de la organizacioacuten

En la proacutexima reunioacuten se va a decidir queacute software para la implementacioacuten de un

motor de buacutesqueda en la Intranet y sitio web del ayuntamiento se va a adquirir

OBJETIVOS

Conocer las caracteriacutesticas de los principales software del mercado para la

implentacioacuten de tecnologiacutea pull para la recuperacioacuten de la informacioacuten

Presentar una aplicacioacuten praacutectica de la gestioacuten del conocimiento

(recuperacioacuten) en un entorno web

Evaluar un paquete de software con relacioacuten a unos criterios teacutecnicos y

metodoloacutegicos preestablecidos

ENUNCIADO

El estudiante es la persona que representa al Departamento de Documentacioacuten en

esta reunioacuten y debes presentar tu propuesta del paquetes de software que maacutes se

adapta a los requerimientos de la organizacioacuten

Los requerimientos establecidos en la reunioacuten anterior son

Software compatible con el Sistema de Informacioacuten del ayuntamiento

Oracle portal sobre UNIX Bases de datos Access y SQL Server JSP y

Dreamweaver Ultradev

Software compatible con cualquier plataforma web Intranet sitio web CD-

ROM DVD

Indexacioacuten de materiales diversos HTML XML asp php pdf doc etc

Entorno usable y familiar para el usuario interno y externo

Opciones de buacutesqueda avanzada operadores booleanos truncamiento

limitaciones de campo y otros

Indexacioacuten de paacuteginas HTML y de texto en varios idiomas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

25

FORMATO

El formato debe centildeirse a los siguientes apartados

1 Metodologiacutea de la evaluacioacuten [el estudiante debe enunciar las fuentes

consultadas y el conjunto de los paquetes de software analizados]

2 Evaluacioacuten del software [el estudiante debe recopilar la siguiente informacioacuten

del paquetes de software seleccionados]

Nombre del SW

Precio

Requerimientos que cumple

Compatibilidad con el sistema de informacioacuten

Compatibilidad con diferentes plataformas web

Indexacioacuten de materiales diversos

Usabilidad del entorno

Opciones de buacutesqueda

Idiomas

3 Propuesta del Departamento de Documentacioacuten[el estudiante debe comentar

algunos puntos a favor yo en contra del software propuesto como opcioacuten 1]

RECURSOS

Sullivan Danny Search Engine Software for your web site

SearchEngineWatchcom Sept 16 2002 (Consultado el 23-05-2006)

httpsearchenginewatchcomresourcessoftwarehtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

26

16 Anexo Introduccioacuten a Google

Presentacioacuten

Internet es una extensa red de documentos de muacuteltiples formatos desde paacuteginas

web en html a documentos de distintos tipos como puedan ser textos imaacutegenes

archivos de sonido o de viacutedeo etc Cuando necesitas buscar cierta informacioacuten en

Internet lo maacutes eficaz es utilizar un buscador ya que estas herramientas disponen

de robots que rastrean la web en busca de informacioacuten e indexan los documentos

seguacuten sus formatos y contenidos de tal forma que muestran a sus usuarios los

documentos relevantes con los criterios de buacutesqueda elegidos

Conocer adecuadamente las propiedades y herramientas de cada buscador nos

puede ayudar a restringir las buacutesquedas a lo que realmente es relevante para

nosotros sin embargo generalmente estos criterios son desconocidos por el

internauta medio ya que se basan en criterios documentales

Google es el buscador maacutes famoso y utilizado realizar una buacutesqueda bien acotada

es necesario incluir el maacuteximo de palabras relevantes para el usuario prestando

especial atencioacuten a los diferentes significados de una palabra Google determina los

resultados por las coincidencias y cercaniacutea de las palabras entre siacute Google tampoco

distingue entre mayuacutesculas y minuacutesculas ni acentos Entrecomillar frases obliga al

buscador a encontrar paacuteginas que tengan esa frase completa

Buacutesqueda sencilla

httpwwwgoogleesintleshelpbasicshtml

iquestQueacute operador booleano utilizan por defecto las buacutesquedas sencillas Pon un

ejemplo

iquestGoogle permite la utilizacioacuten de comodines () para limitar la buacutesqueda Pon un

ejemplo

iquestGoogle diferencia los acentos y las mayuacutesculas y minuacutesculas Pon un ejemplo

Restricciones en la buacutesqueda

httpwwwgoogleesintleshelprefinesearchhtml

iquestCoacutemo se excluye una palabra de una estrategia de buacutesqueda Por ejemplo de la

buacutesqueda [biblioteca arte moderno] queacute debo hacer para excluir la palabra

moderno

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

iquestQueacute debo hacer para buscar una frase por ejemplo [gran hermano]

iquestCoacutemo puedo buscar noticias sobre la guerra de Irak soacutelo en el sitio web del

Elmundoes Especifica la estrategia de buacutesqueda

Buacutesqueda avanzada

httpwwwgoogleesadvanced_searchhl=es

Los buscadores de internet han superado ampliamente las claacutesicas posibilidades de

filtrado de preguntas basadas en el aacutelgebra booleana (operadores Y NO O en

ingleacutes AND OR y NOT) Por ejemplo google descarta por defecto el operador

booleano OR (historia O roma) asumiendo que su base de datos es tan grande

que o intenta ser muy especiacutefico o el resultado obtenido en una consulta de este

tipo tendraacute demasiado ruido esto saldraacuten demasiadas respuestas Aun asiacute nos

permite utilizarlo a voluntad en su buacutesqueda avanzada

Asiacute google busca por defecto con el operador AND (historia Y roma) y es maacutes

aplica por defecto un operador NEAR decreciente NEAR busca paacuteginas en las que

aparezca historia y tambieacuten roma con una o maacutes palabras de separacioacuten entre

ambos conceptos El nuacutemero de palabras se regula por 123 etc copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

27

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 20: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

20

implementacioacuten de metadatos y Dublin Core en sedes y paacuteginas web de bibliotecas

y centros de documentacioacuten de universidades y centros de investigacioacuten de la Red

IRIS IVII Jornadas Espantildeolas de Documentacioacuten La Gestioacuten del Conocimiento

retos y soluciones de los profesionales de la informacioacuten Bilbao 19-20-21 octubre

2000 p 197-210

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

21

15 Casos praacutecticos

151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda

PRESENTACIOacuteN

La recuperacioacuten del conocimiento mediante la utilizacioacuten de motores de buacutesqueda

es muy heterogeacutenea Cada motor indexa y recupera de una forma diferente Por

tanto es importante tener unos paraacutemetros para poder evaluar queacute motores de

buacutesqueda son los maacutes adecuados ante una necesidad de informacioacuten

OBJETIVOS

Conocer el funcionamiento de los motores de buacutesqueda

Utilizar una metodologiacutea para la evaluacioacuten de motores de buacutesqueda

ENUNCIADO

El estudiante deberaacute evaluar 3 motores de buacutesqueda de aacutembito internacional para

ello usaraacute una estrategia de buacutesqueda que aplicaraacute en los 3 motores

preseleccionados de forma que puedan apreciarse claramente las diferencias entre

eacutestos

Motores de buacutesqueda Googlecom Yahoocom Altavistacom

Estrategia de buacutesqueda digital libraries

Las caracteriacutesticas que pueden presentar los diferentes motores de buacutesqueda se

van a agrupar en tres apartados recogida de la informacioacuten buacutesqueda y

recuperacioacuten de la informacioacuten y presentacioacuten de los resultados

Recogida de informacioacuten En este apartado hay que determinar si el robot

es capaz de identificar las etiquetas ldquoMETArdquo de los documentos HTML y

extraer informacioacuten de las mismas para ser usada en la buacutesqueda o

presentacioacuten de resultados

Buacutesqueda Las caracteriacutesticas baacutesicas que un motor de buacutesqueda debe

cumplir desde el punto de vista de la recuperacioacuten de la informacioacuten son las

siguientes

o Formularios de buacutesqueda posibilidad de elegir entre simple o

avanzado

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

22

o Herramientas de buacutesqueda posibilidad de utilizar operadores

booleanos (AND OR NOT) pareacutentesis comillas para los teacuterminos

compuestos o frases y finalmente posibilidad de truncado en

palabras derivadas

o Clasificacioacuten temaacutetica existencia de un iacutendice general para aquellos

que no saben concretar su tema de buacutesqueda

o Campos de buacutesqueda posibilidad de limitar la buacutesqueda a campos

determinados tales como Tiacutetulo URL Descripcioacuten Palabras Clave

Localizacioacuten e Idioma

o Control del vocabulario descubrir si el motor dispone de alguna

herramienta para eliminar sinonimias y polisemias etc

o Deteccioacuten de novedades posibilidad de diferenciar los nuevos

recursos incorporados

Resultados Hay que tener en cuenta si el motor de buacutesqueda permite

elegir entre diferentes formatos de presentacioacuten de los resultados asiacute como

diversos criterios de ordenacioacuten

FORMATO

El establecido en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

23

CUADRO PARA LA EVALUACIOacuteN DE MOTORES DE BUacuteSQUEDA

Recogida de

informacioacuten

Buacutesqueda y Recuperacioacuten de Informacioacuten

Resultados

Formularios

Herramientas de buacutesqueda

Clasif

Campos de buacutesqueda

Format

Orden

MOTORES

Metadata No

Metadata

Simple Avanz

OR

AND

NOT

( )

ldquo ldquo

Tiacutet

URL

Desc

Keyw

Loc

Leng

Control

Vocab

Nov

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

24

152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda

PRESENTACIOacuteN

Una organizacioacuten ha destinado una partida presupuestaria para aumentar la

presencia web del ayuntamiento e implementar servicios y productos de

informacioacuten interactivos para los ciudadanos

Los departamentos de Informaacutetica Documentacioacuten y Comunicacioacuten estaacuten

colaborando en el proceso de compra de nuevo software que permita implementar

estas prestaciones y sea compatible con el back-office de la organizacioacuten

En la proacutexima reunioacuten se va a decidir queacute software para la implementacioacuten de un

motor de buacutesqueda en la Intranet y sitio web del ayuntamiento se va a adquirir

OBJETIVOS

Conocer las caracteriacutesticas de los principales software del mercado para la

implentacioacuten de tecnologiacutea pull para la recuperacioacuten de la informacioacuten

Presentar una aplicacioacuten praacutectica de la gestioacuten del conocimiento

(recuperacioacuten) en un entorno web

Evaluar un paquete de software con relacioacuten a unos criterios teacutecnicos y

metodoloacutegicos preestablecidos

ENUNCIADO

El estudiante es la persona que representa al Departamento de Documentacioacuten en

esta reunioacuten y debes presentar tu propuesta del paquetes de software que maacutes se

adapta a los requerimientos de la organizacioacuten

Los requerimientos establecidos en la reunioacuten anterior son

Software compatible con el Sistema de Informacioacuten del ayuntamiento

Oracle portal sobre UNIX Bases de datos Access y SQL Server JSP y

Dreamweaver Ultradev

Software compatible con cualquier plataforma web Intranet sitio web CD-

ROM DVD

Indexacioacuten de materiales diversos HTML XML asp php pdf doc etc

Entorno usable y familiar para el usuario interno y externo

Opciones de buacutesqueda avanzada operadores booleanos truncamiento

limitaciones de campo y otros

Indexacioacuten de paacuteginas HTML y de texto en varios idiomas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

25

FORMATO

El formato debe centildeirse a los siguientes apartados

1 Metodologiacutea de la evaluacioacuten [el estudiante debe enunciar las fuentes

consultadas y el conjunto de los paquetes de software analizados]

2 Evaluacioacuten del software [el estudiante debe recopilar la siguiente informacioacuten

del paquetes de software seleccionados]

Nombre del SW

Precio

Requerimientos que cumple

Compatibilidad con el sistema de informacioacuten

Compatibilidad con diferentes plataformas web

Indexacioacuten de materiales diversos

Usabilidad del entorno

Opciones de buacutesqueda

Idiomas

3 Propuesta del Departamento de Documentacioacuten[el estudiante debe comentar

algunos puntos a favor yo en contra del software propuesto como opcioacuten 1]

RECURSOS

Sullivan Danny Search Engine Software for your web site

SearchEngineWatchcom Sept 16 2002 (Consultado el 23-05-2006)

httpsearchenginewatchcomresourcessoftwarehtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

26

16 Anexo Introduccioacuten a Google

Presentacioacuten

Internet es una extensa red de documentos de muacuteltiples formatos desde paacuteginas

web en html a documentos de distintos tipos como puedan ser textos imaacutegenes

archivos de sonido o de viacutedeo etc Cuando necesitas buscar cierta informacioacuten en

Internet lo maacutes eficaz es utilizar un buscador ya que estas herramientas disponen

de robots que rastrean la web en busca de informacioacuten e indexan los documentos

seguacuten sus formatos y contenidos de tal forma que muestran a sus usuarios los

documentos relevantes con los criterios de buacutesqueda elegidos

Conocer adecuadamente las propiedades y herramientas de cada buscador nos

puede ayudar a restringir las buacutesquedas a lo que realmente es relevante para

nosotros sin embargo generalmente estos criterios son desconocidos por el

internauta medio ya que se basan en criterios documentales

Google es el buscador maacutes famoso y utilizado realizar una buacutesqueda bien acotada

es necesario incluir el maacuteximo de palabras relevantes para el usuario prestando

especial atencioacuten a los diferentes significados de una palabra Google determina los

resultados por las coincidencias y cercaniacutea de las palabras entre siacute Google tampoco

distingue entre mayuacutesculas y minuacutesculas ni acentos Entrecomillar frases obliga al

buscador a encontrar paacuteginas que tengan esa frase completa

Buacutesqueda sencilla

httpwwwgoogleesintleshelpbasicshtml

iquestQueacute operador booleano utilizan por defecto las buacutesquedas sencillas Pon un

ejemplo

iquestGoogle permite la utilizacioacuten de comodines () para limitar la buacutesqueda Pon un

ejemplo

iquestGoogle diferencia los acentos y las mayuacutesculas y minuacutesculas Pon un ejemplo

Restricciones en la buacutesqueda

httpwwwgoogleesintleshelprefinesearchhtml

iquestCoacutemo se excluye una palabra de una estrategia de buacutesqueda Por ejemplo de la

buacutesqueda [biblioteca arte moderno] queacute debo hacer para excluir la palabra

moderno

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

iquestQueacute debo hacer para buscar una frase por ejemplo [gran hermano]

iquestCoacutemo puedo buscar noticias sobre la guerra de Irak soacutelo en el sitio web del

Elmundoes Especifica la estrategia de buacutesqueda

Buacutesqueda avanzada

httpwwwgoogleesadvanced_searchhl=es

Los buscadores de internet han superado ampliamente las claacutesicas posibilidades de

filtrado de preguntas basadas en el aacutelgebra booleana (operadores Y NO O en

ingleacutes AND OR y NOT) Por ejemplo google descarta por defecto el operador

booleano OR (historia O roma) asumiendo que su base de datos es tan grande

que o intenta ser muy especiacutefico o el resultado obtenido en una consulta de este

tipo tendraacute demasiado ruido esto saldraacuten demasiadas respuestas Aun asiacute nos

permite utilizarlo a voluntad en su buacutesqueda avanzada

Asiacute google busca por defecto con el operador AND (historia Y roma) y es maacutes

aplica por defecto un operador NEAR decreciente NEAR busca paacuteginas en las que

aparezca historia y tambieacuten roma con una o maacutes palabras de separacioacuten entre

ambos conceptos El nuacutemero de palabras se regula por 123 etc copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

27

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 21: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

21

15 Casos praacutecticos

151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda

PRESENTACIOacuteN

La recuperacioacuten del conocimiento mediante la utilizacioacuten de motores de buacutesqueda

es muy heterogeacutenea Cada motor indexa y recupera de una forma diferente Por

tanto es importante tener unos paraacutemetros para poder evaluar queacute motores de

buacutesqueda son los maacutes adecuados ante una necesidad de informacioacuten

OBJETIVOS

Conocer el funcionamiento de los motores de buacutesqueda

Utilizar una metodologiacutea para la evaluacioacuten de motores de buacutesqueda

ENUNCIADO

El estudiante deberaacute evaluar 3 motores de buacutesqueda de aacutembito internacional para

ello usaraacute una estrategia de buacutesqueda que aplicaraacute en los 3 motores

preseleccionados de forma que puedan apreciarse claramente las diferencias entre

eacutestos

Motores de buacutesqueda Googlecom Yahoocom Altavistacom

Estrategia de buacutesqueda digital libraries

Las caracteriacutesticas que pueden presentar los diferentes motores de buacutesqueda se

van a agrupar en tres apartados recogida de la informacioacuten buacutesqueda y

recuperacioacuten de la informacioacuten y presentacioacuten de los resultados

Recogida de informacioacuten En este apartado hay que determinar si el robot

es capaz de identificar las etiquetas ldquoMETArdquo de los documentos HTML y

extraer informacioacuten de las mismas para ser usada en la buacutesqueda o

presentacioacuten de resultados

Buacutesqueda Las caracteriacutesticas baacutesicas que un motor de buacutesqueda debe

cumplir desde el punto de vista de la recuperacioacuten de la informacioacuten son las

siguientes

o Formularios de buacutesqueda posibilidad de elegir entre simple o

avanzado

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

22

o Herramientas de buacutesqueda posibilidad de utilizar operadores

booleanos (AND OR NOT) pareacutentesis comillas para los teacuterminos

compuestos o frases y finalmente posibilidad de truncado en

palabras derivadas

o Clasificacioacuten temaacutetica existencia de un iacutendice general para aquellos

que no saben concretar su tema de buacutesqueda

o Campos de buacutesqueda posibilidad de limitar la buacutesqueda a campos

determinados tales como Tiacutetulo URL Descripcioacuten Palabras Clave

Localizacioacuten e Idioma

o Control del vocabulario descubrir si el motor dispone de alguna

herramienta para eliminar sinonimias y polisemias etc

o Deteccioacuten de novedades posibilidad de diferenciar los nuevos

recursos incorporados

Resultados Hay que tener en cuenta si el motor de buacutesqueda permite

elegir entre diferentes formatos de presentacioacuten de los resultados asiacute como

diversos criterios de ordenacioacuten

FORMATO

El establecido en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

23

CUADRO PARA LA EVALUACIOacuteN DE MOTORES DE BUacuteSQUEDA

Recogida de

informacioacuten

Buacutesqueda y Recuperacioacuten de Informacioacuten

Resultados

Formularios

Herramientas de buacutesqueda

Clasif

Campos de buacutesqueda

Format

Orden

MOTORES

Metadata No

Metadata

Simple Avanz

OR

AND

NOT

( )

ldquo ldquo

Tiacutet

URL

Desc

Keyw

Loc

Leng

Control

Vocab

Nov

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

24

152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda

PRESENTACIOacuteN

Una organizacioacuten ha destinado una partida presupuestaria para aumentar la

presencia web del ayuntamiento e implementar servicios y productos de

informacioacuten interactivos para los ciudadanos

Los departamentos de Informaacutetica Documentacioacuten y Comunicacioacuten estaacuten

colaborando en el proceso de compra de nuevo software que permita implementar

estas prestaciones y sea compatible con el back-office de la organizacioacuten

En la proacutexima reunioacuten se va a decidir queacute software para la implementacioacuten de un

motor de buacutesqueda en la Intranet y sitio web del ayuntamiento se va a adquirir

OBJETIVOS

Conocer las caracteriacutesticas de los principales software del mercado para la

implentacioacuten de tecnologiacutea pull para la recuperacioacuten de la informacioacuten

Presentar una aplicacioacuten praacutectica de la gestioacuten del conocimiento

(recuperacioacuten) en un entorno web

Evaluar un paquete de software con relacioacuten a unos criterios teacutecnicos y

metodoloacutegicos preestablecidos

ENUNCIADO

El estudiante es la persona que representa al Departamento de Documentacioacuten en

esta reunioacuten y debes presentar tu propuesta del paquetes de software que maacutes se

adapta a los requerimientos de la organizacioacuten

Los requerimientos establecidos en la reunioacuten anterior son

Software compatible con el Sistema de Informacioacuten del ayuntamiento

Oracle portal sobre UNIX Bases de datos Access y SQL Server JSP y

Dreamweaver Ultradev

Software compatible con cualquier plataforma web Intranet sitio web CD-

ROM DVD

Indexacioacuten de materiales diversos HTML XML asp php pdf doc etc

Entorno usable y familiar para el usuario interno y externo

Opciones de buacutesqueda avanzada operadores booleanos truncamiento

limitaciones de campo y otros

Indexacioacuten de paacuteginas HTML y de texto en varios idiomas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

25

FORMATO

El formato debe centildeirse a los siguientes apartados

1 Metodologiacutea de la evaluacioacuten [el estudiante debe enunciar las fuentes

consultadas y el conjunto de los paquetes de software analizados]

2 Evaluacioacuten del software [el estudiante debe recopilar la siguiente informacioacuten

del paquetes de software seleccionados]

Nombre del SW

Precio

Requerimientos que cumple

Compatibilidad con el sistema de informacioacuten

Compatibilidad con diferentes plataformas web

Indexacioacuten de materiales diversos

Usabilidad del entorno

Opciones de buacutesqueda

Idiomas

3 Propuesta del Departamento de Documentacioacuten[el estudiante debe comentar

algunos puntos a favor yo en contra del software propuesto como opcioacuten 1]

RECURSOS

Sullivan Danny Search Engine Software for your web site

SearchEngineWatchcom Sept 16 2002 (Consultado el 23-05-2006)

httpsearchenginewatchcomresourcessoftwarehtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

26

16 Anexo Introduccioacuten a Google

Presentacioacuten

Internet es una extensa red de documentos de muacuteltiples formatos desde paacuteginas

web en html a documentos de distintos tipos como puedan ser textos imaacutegenes

archivos de sonido o de viacutedeo etc Cuando necesitas buscar cierta informacioacuten en

Internet lo maacutes eficaz es utilizar un buscador ya que estas herramientas disponen

de robots que rastrean la web en busca de informacioacuten e indexan los documentos

seguacuten sus formatos y contenidos de tal forma que muestran a sus usuarios los

documentos relevantes con los criterios de buacutesqueda elegidos

Conocer adecuadamente las propiedades y herramientas de cada buscador nos

puede ayudar a restringir las buacutesquedas a lo que realmente es relevante para

nosotros sin embargo generalmente estos criterios son desconocidos por el

internauta medio ya que se basan en criterios documentales

Google es el buscador maacutes famoso y utilizado realizar una buacutesqueda bien acotada

es necesario incluir el maacuteximo de palabras relevantes para el usuario prestando

especial atencioacuten a los diferentes significados de una palabra Google determina los

resultados por las coincidencias y cercaniacutea de las palabras entre siacute Google tampoco

distingue entre mayuacutesculas y minuacutesculas ni acentos Entrecomillar frases obliga al

buscador a encontrar paacuteginas que tengan esa frase completa

Buacutesqueda sencilla

httpwwwgoogleesintleshelpbasicshtml

iquestQueacute operador booleano utilizan por defecto las buacutesquedas sencillas Pon un

ejemplo

iquestGoogle permite la utilizacioacuten de comodines () para limitar la buacutesqueda Pon un

ejemplo

iquestGoogle diferencia los acentos y las mayuacutesculas y minuacutesculas Pon un ejemplo

Restricciones en la buacutesqueda

httpwwwgoogleesintleshelprefinesearchhtml

iquestCoacutemo se excluye una palabra de una estrategia de buacutesqueda Por ejemplo de la

buacutesqueda [biblioteca arte moderno] queacute debo hacer para excluir la palabra

moderno

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

iquestQueacute debo hacer para buscar una frase por ejemplo [gran hermano]

iquestCoacutemo puedo buscar noticias sobre la guerra de Irak soacutelo en el sitio web del

Elmundoes Especifica la estrategia de buacutesqueda

Buacutesqueda avanzada

httpwwwgoogleesadvanced_searchhl=es

Los buscadores de internet han superado ampliamente las claacutesicas posibilidades de

filtrado de preguntas basadas en el aacutelgebra booleana (operadores Y NO O en

ingleacutes AND OR y NOT) Por ejemplo google descarta por defecto el operador

booleano OR (historia O roma) asumiendo que su base de datos es tan grande

que o intenta ser muy especiacutefico o el resultado obtenido en una consulta de este

tipo tendraacute demasiado ruido esto saldraacuten demasiadas respuestas Aun asiacute nos

permite utilizarlo a voluntad en su buacutesqueda avanzada

Asiacute google busca por defecto con el operador AND (historia Y roma) y es maacutes

aplica por defecto un operador NEAR decreciente NEAR busca paacuteginas en las que

aparezca historia y tambieacuten roma con una o maacutes palabras de separacioacuten entre

ambos conceptos El nuacutemero de palabras se regula por 123 etc copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

27

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 22: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

22

o Herramientas de buacutesqueda posibilidad de utilizar operadores

booleanos (AND OR NOT) pareacutentesis comillas para los teacuterminos

compuestos o frases y finalmente posibilidad de truncado en

palabras derivadas

o Clasificacioacuten temaacutetica existencia de un iacutendice general para aquellos

que no saben concretar su tema de buacutesqueda

o Campos de buacutesqueda posibilidad de limitar la buacutesqueda a campos

determinados tales como Tiacutetulo URL Descripcioacuten Palabras Clave

Localizacioacuten e Idioma

o Control del vocabulario descubrir si el motor dispone de alguna

herramienta para eliminar sinonimias y polisemias etc

o Deteccioacuten de novedades posibilidad de diferenciar los nuevos

recursos incorporados

Resultados Hay que tener en cuenta si el motor de buacutesqueda permite

elegir entre diferentes formatos de presentacioacuten de los resultados asiacute como

diversos criterios de ordenacioacuten

FORMATO

El establecido en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

23

CUADRO PARA LA EVALUACIOacuteN DE MOTORES DE BUacuteSQUEDA

Recogida de

informacioacuten

Buacutesqueda y Recuperacioacuten de Informacioacuten

Resultados

Formularios

Herramientas de buacutesqueda

Clasif

Campos de buacutesqueda

Format

Orden

MOTORES

Metadata No

Metadata

Simple Avanz

OR

AND

NOT

( )

ldquo ldquo

Tiacutet

URL

Desc

Keyw

Loc

Leng

Control

Vocab

Nov

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

24

152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda

PRESENTACIOacuteN

Una organizacioacuten ha destinado una partida presupuestaria para aumentar la

presencia web del ayuntamiento e implementar servicios y productos de

informacioacuten interactivos para los ciudadanos

Los departamentos de Informaacutetica Documentacioacuten y Comunicacioacuten estaacuten

colaborando en el proceso de compra de nuevo software que permita implementar

estas prestaciones y sea compatible con el back-office de la organizacioacuten

En la proacutexima reunioacuten se va a decidir queacute software para la implementacioacuten de un

motor de buacutesqueda en la Intranet y sitio web del ayuntamiento se va a adquirir

OBJETIVOS

Conocer las caracteriacutesticas de los principales software del mercado para la

implentacioacuten de tecnologiacutea pull para la recuperacioacuten de la informacioacuten

Presentar una aplicacioacuten praacutectica de la gestioacuten del conocimiento

(recuperacioacuten) en un entorno web

Evaluar un paquete de software con relacioacuten a unos criterios teacutecnicos y

metodoloacutegicos preestablecidos

ENUNCIADO

El estudiante es la persona que representa al Departamento de Documentacioacuten en

esta reunioacuten y debes presentar tu propuesta del paquetes de software que maacutes se

adapta a los requerimientos de la organizacioacuten

Los requerimientos establecidos en la reunioacuten anterior son

Software compatible con el Sistema de Informacioacuten del ayuntamiento

Oracle portal sobre UNIX Bases de datos Access y SQL Server JSP y

Dreamweaver Ultradev

Software compatible con cualquier plataforma web Intranet sitio web CD-

ROM DVD

Indexacioacuten de materiales diversos HTML XML asp php pdf doc etc

Entorno usable y familiar para el usuario interno y externo

Opciones de buacutesqueda avanzada operadores booleanos truncamiento

limitaciones de campo y otros

Indexacioacuten de paacuteginas HTML y de texto en varios idiomas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

25

FORMATO

El formato debe centildeirse a los siguientes apartados

1 Metodologiacutea de la evaluacioacuten [el estudiante debe enunciar las fuentes

consultadas y el conjunto de los paquetes de software analizados]

2 Evaluacioacuten del software [el estudiante debe recopilar la siguiente informacioacuten

del paquetes de software seleccionados]

Nombre del SW

Precio

Requerimientos que cumple

Compatibilidad con el sistema de informacioacuten

Compatibilidad con diferentes plataformas web

Indexacioacuten de materiales diversos

Usabilidad del entorno

Opciones de buacutesqueda

Idiomas

3 Propuesta del Departamento de Documentacioacuten[el estudiante debe comentar

algunos puntos a favor yo en contra del software propuesto como opcioacuten 1]

RECURSOS

Sullivan Danny Search Engine Software for your web site

SearchEngineWatchcom Sept 16 2002 (Consultado el 23-05-2006)

httpsearchenginewatchcomresourcessoftwarehtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

26

16 Anexo Introduccioacuten a Google

Presentacioacuten

Internet es una extensa red de documentos de muacuteltiples formatos desde paacuteginas

web en html a documentos de distintos tipos como puedan ser textos imaacutegenes

archivos de sonido o de viacutedeo etc Cuando necesitas buscar cierta informacioacuten en

Internet lo maacutes eficaz es utilizar un buscador ya que estas herramientas disponen

de robots que rastrean la web en busca de informacioacuten e indexan los documentos

seguacuten sus formatos y contenidos de tal forma que muestran a sus usuarios los

documentos relevantes con los criterios de buacutesqueda elegidos

Conocer adecuadamente las propiedades y herramientas de cada buscador nos

puede ayudar a restringir las buacutesquedas a lo que realmente es relevante para

nosotros sin embargo generalmente estos criterios son desconocidos por el

internauta medio ya que se basan en criterios documentales

Google es el buscador maacutes famoso y utilizado realizar una buacutesqueda bien acotada

es necesario incluir el maacuteximo de palabras relevantes para el usuario prestando

especial atencioacuten a los diferentes significados de una palabra Google determina los

resultados por las coincidencias y cercaniacutea de las palabras entre siacute Google tampoco

distingue entre mayuacutesculas y minuacutesculas ni acentos Entrecomillar frases obliga al

buscador a encontrar paacuteginas que tengan esa frase completa

Buacutesqueda sencilla

httpwwwgoogleesintleshelpbasicshtml

iquestQueacute operador booleano utilizan por defecto las buacutesquedas sencillas Pon un

ejemplo

iquestGoogle permite la utilizacioacuten de comodines () para limitar la buacutesqueda Pon un

ejemplo

iquestGoogle diferencia los acentos y las mayuacutesculas y minuacutesculas Pon un ejemplo

Restricciones en la buacutesqueda

httpwwwgoogleesintleshelprefinesearchhtml

iquestCoacutemo se excluye una palabra de una estrategia de buacutesqueda Por ejemplo de la

buacutesqueda [biblioteca arte moderno] queacute debo hacer para excluir la palabra

moderno

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

iquestQueacute debo hacer para buscar una frase por ejemplo [gran hermano]

iquestCoacutemo puedo buscar noticias sobre la guerra de Irak soacutelo en el sitio web del

Elmundoes Especifica la estrategia de buacutesqueda

Buacutesqueda avanzada

httpwwwgoogleesadvanced_searchhl=es

Los buscadores de internet han superado ampliamente las claacutesicas posibilidades de

filtrado de preguntas basadas en el aacutelgebra booleana (operadores Y NO O en

ingleacutes AND OR y NOT) Por ejemplo google descarta por defecto el operador

booleano OR (historia O roma) asumiendo que su base de datos es tan grande

que o intenta ser muy especiacutefico o el resultado obtenido en una consulta de este

tipo tendraacute demasiado ruido esto saldraacuten demasiadas respuestas Aun asiacute nos

permite utilizarlo a voluntad en su buacutesqueda avanzada

Asiacute google busca por defecto con el operador AND (historia Y roma) y es maacutes

aplica por defecto un operador NEAR decreciente NEAR busca paacuteginas en las que

aparezca historia y tambieacuten roma con una o maacutes palabras de separacioacuten entre

ambos conceptos El nuacutemero de palabras se regula por 123 etc copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

27

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 23: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

23

CUADRO PARA LA EVALUACIOacuteN DE MOTORES DE BUacuteSQUEDA

Recogida de

informacioacuten

Buacutesqueda y Recuperacioacuten de Informacioacuten

Resultados

Formularios

Herramientas de buacutesqueda

Clasif

Campos de buacutesqueda

Format

Orden

MOTORES

Metadata No

Metadata

Simple Avanz

OR

AND

NOT

( )

ldquo ldquo

Tiacutet

URL

Desc

Keyw

Loc

Leng

Control

Vocab

Nov

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

24

152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda

PRESENTACIOacuteN

Una organizacioacuten ha destinado una partida presupuestaria para aumentar la

presencia web del ayuntamiento e implementar servicios y productos de

informacioacuten interactivos para los ciudadanos

Los departamentos de Informaacutetica Documentacioacuten y Comunicacioacuten estaacuten

colaborando en el proceso de compra de nuevo software que permita implementar

estas prestaciones y sea compatible con el back-office de la organizacioacuten

En la proacutexima reunioacuten se va a decidir queacute software para la implementacioacuten de un

motor de buacutesqueda en la Intranet y sitio web del ayuntamiento se va a adquirir

OBJETIVOS

Conocer las caracteriacutesticas de los principales software del mercado para la

implentacioacuten de tecnologiacutea pull para la recuperacioacuten de la informacioacuten

Presentar una aplicacioacuten praacutectica de la gestioacuten del conocimiento

(recuperacioacuten) en un entorno web

Evaluar un paquete de software con relacioacuten a unos criterios teacutecnicos y

metodoloacutegicos preestablecidos

ENUNCIADO

El estudiante es la persona que representa al Departamento de Documentacioacuten en

esta reunioacuten y debes presentar tu propuesta del paquetes de software que maacutes se

adapta a los requerimientos de la organizacioacuten

Los requerimientos establecidos en la reunioacuten anterior son

Software compatible con el Sistema de Informacioacuten del ayuntamiento

Oracle portal sobre UNIX Bases de datos Access y SQL Server JSP y

Dreamweaver Ultradev

Software compatible con cualquier plataforma web Intranet sitio web CD-

ROM DVD

Indexacioacuten de materiales diversos HTML XML asp php pdf doc etc

Entorno usable y familiar para el usuario interno y externo

Opciones de buacutesqueda avanzada operadores booleanos truncamiento

limitaciones de campo y otros

Indexacioacuten de paacuteginas HTML y de texto en varios idiomas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

25

FORMATO

El formato debe centildeirse a los siguientes apartados

1 Metodologiacutea de la evaluacioacuten [el estudiante debe enunciar las fuentes

consultadas y el conjunto de los paquetes de software analizados]

2 Evaluacioacuten del software [el estudiante debe recopilar la siguiente informacioacuten

del paquetes de software seleccionados]

Nombre del SW

Precio

Requerimientos que cumple

Compatibilidad con el sistema de informacioacuten

Compatibilidad con diferentes plataformas web

Indexacioacuten de materiales diversos

Usabilidad del entorno

Opciones de buacutesqueda

Idiomas

3 Propuesta del Departamento de Documentacioacuten[el estudiante debe comentar

algunos puntos a favor yo en contra del software propuesto como opcioacuten 1]

RECURSOS

Sullivan Danny Search Engine Software for your web site

SearchEngineWatchcom Sept 16 2002 (Consultado el 23-05-2006)

httpsearchenginewatchcomresourcessoftwarehtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

26

16 Anexo Introduccioacuten a Google

Presentacioacuten

Internet es una extensa red de documentos de muacuteltiples formatos desde paacuteginas

web en html a documentos de distintos tipos como puedan ser textos imaacutegenes

archivos de sonido o de viacutedeo etc Cuando necesitas buscar cierta informacioacuten en

Internet lo maacutes eficaz es utilizar un buscador ya que estas herramientas disponen

de robots que rastrean la web en busca de informacioacuten e indexan los documentos

seguacuten sus formatos y contenidos de tal forma que muestran a sus usuarios los

documentos relevantes con los criterios de buacutesqueda elegidos

Conocer adecuadamente las propiedades y herramientas de cada buscador nos

puede ayudar a restringir las buacutesquedas a lo que realmente es relevante para

nosotros sin embargo generalmente estos criterios son desconocidos por el

internauta medio ya que se basan en criterios documentales

Google es el buscador maacutes famoso y utilizado realizar una buacutesqueda bien acotada

es necesario incluir el maacuteximo de palabras relevantes para el usuario prestando

especial atencioacuten a los diferentes significados de una palabra Google determina los

resultados por las coincidencias y cercaniacutea de las palabras entre siacute Google tampoco

distingue entre mayuacutesculas y minuacutesculas ni acentos Entrecomillar frases obliga al

buscador a encontrar paacuteginas que tengan esa frase completa

Buacutesqueda sencilla

httpwwwgoogleesintleshelpbasicshtml

iquestQueacute operador booleano utilizan por defecto las buacutesquedas sencillas Pon un

ejemplo

iquestGoogle permite la utilizacioacuten de comodines () para limitar la buacutesqueda Pon un

ejemplo

iquestGoogle diferencia los acentos y las mayuacutesculas y minuacutesculas Pon un ejemplo

Restricciones en la buacutesqueda

httpwwwgoogleesintleshelprefinesearchhtml

iquestCoacutemo se excluye una palabra de una estrategia de buacutesqueda Por ejemplo de la

buacutesqueda [biblioteca arte moderno] queacute debo hacer para excluir la palabra

moderno

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

iquestQueacute debo hacer para buscar una frase por ejemplo [gran hermano]

iquestCoacutemo puedo buscar noticias sobre la guerra de Irak soacutelo en el sitio web del

Elmundoes Especifica la estrategia de buacutesqueda

Buacutesqueda avanzada

httpwwwgoogleesadvanced_searchhl=es

Los buscadores de internet han superado ampliamente las claacutesicas posibilidades de

filtrado de preguntas basadas en el aacutelgebra booleana (operadores Y NO O en

ingleacutes AND OR y NOT) Por ejemplo google descarta por defecto el operador

booleano OR (historia O roma) asumiendo que su base de datos es tan grande

que o intenta ser muy especiacutefico o el resultado obtenido en una consulta de este

tipo tendraacute demasiado ruido esto saldraacuten demasiadas respuestas Aun asiacute nos

permite utilizarlo a voluntad en su buacutesqueda avanzada

Asiacute google busca por defecto con el operador AND (historia Y roma) y es maacutes

aplica por defecto un operador NEAR decreciente NEAR busca paacuteginas en las que

aparezca historia y tambieacuten roma con una o maacutes palabras de separacioacuten entre

ambos conceptos El nuacutemero de palabras se regula por 123 etc copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

27

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 24: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

24

152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda

PRESENTACIOacuteN

Una organizacioacuten ha destinado una partida presupuestaria para aumentar la

presencia web del ayuntamiento e implementar servicios y productos de

informacioacuten interactivos para los ciudadanos

Los departamentos de Informaacutetica Documentacioacuten y Comunicacioacuten estaacuten

colaborando en el proceso de compra de nuevo software que permita implementar

estas prestaciones y sea compatible con el back-office de la organizacioacuten

En la proacutexima reunioacuten se va a decidir queacute software para la implementacioacuten de un

motor de buacutesqueda en la Intranet y sitio web del ayuntamiento se va a adquirir

OBJETIVOS

Conocer las caracteriacutesticas de los principales software del mercado para la

implentacioacuten de tecnologiacutea pull para la recuperacioacuten de la informacioacuten

Presentar una aplicacioacuten praacutectica de la gestioacuten del conocimiento

(recuperacioacuten) en un entorno web

Evaluar un paquete de software con relacioacuten a unos criterios teacutecnicos y

metodoloacutegicos preestablecidos

ENUNCIADO

El estudiante es la persona que representa al Departamento de Documentacioacuten en

esta reunioacuten y debes presentar tu propuesta del paquetes de software que maacutes se

adapta a los requerimientos de la organizacioacuten

Los requerimientos establecidos en la reunioacuten anterior son

Software compatible con el Sistema de Informacioacuten del ayuntamiento

Oracle portal sobre UNIX Bases de datos Access y SQL Server JSP y

Dreamweaver Ultradev

Software compatible con cualquier plataforma web Intranet sitio web CD-

ROM DVD

Indexacioacuten de materiales diversos HTML XML asp php pdf doc etc

Entorno usable y familiar para el usuario interno y externo

Opciones de buacutesqueda avanzada operadores booleanos truncamiento

limitaciones de campo y otros

Indexacioacuten de paacuteginas HTML y de texto en varios idiomas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

25

FORMATO

El formato debe centildeirse a los siguientes apartados

1 Metodologiacutea de la evaluacioacuten [el estudiante debe enunciar las fuentes

consultadas y el conjunto de los paquetes de software analizados]

2 Evaluacioacuten del software [el estudiante debe recopilar la siguiente informacioacuten

del paquetes de software seleccionados]

Nombre del SW

Precio

Requerimientos que cumple

Compatibilidad con el sistema de informacioacuten

Compatibilidad con diferentes plataformas web

Indexacioacuten de materiales diversos

Usabilidad del entorno

Opciones de buacutesqueda

Idiomas

3 Propuesta del Departamento de Documentacioacuten[el estudiante debe comentar

algunos puntos a favor yo en contra del software propuesto como opcioacuten 1]

RECURSOS

Sullivan Danny Search Engine Software for your web site

SearchEngineWatchcom Sept 16 2002 (Consultado el 23-05-2006)

httpsearchenginewatchcomresourcessoftwarehtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

26

16 Anexo Introduccioacuten a Google

Presentacioacuten

Internet es una extensa red de documentos de muacuteltiples formatos desde paacuteginas

web en html a documentos de distintos tipos como puedan ser textos imaacutegenes

archivos de sonido o de viacutedeo etc Cuando necesitas buscar cierta informacioacuten en

Internet lo maacutes eficaz es utilizar un buscador ya que estas herramientas disponen

de robots que rastrean la web en busca de informacioacuten e indexan los documentos

seguacuten sus formatos y contenidos de tal forma que muestran a sus usuarios los

documentos relevantes con los criterios de buacutesqueda elegidos

Conocer adecuadamente las propiedades y herramientas de cada buscador nos

puede ayudar a restringir las buacutesquedas a lo que realmente es relevante para

nosotros sin embargo generalmente estos criterios son desconocidos por el

internauta medio ya que se basan en criterios documentales

Google es el buscador maacutes famoso y utilizado realizar una buacutesqueda bien acotada

es necesario incluir el maacuteximo de palabras relevantes para el usuario prestando

especial atencioacuten a los diferentes significados de una palabra Google determina los

resultados por las coincidencias y cercaniacutea de las palabras entre siacute Google tampoco

distingue entre mayuacutesculas y minuacutesculas ni acentos Entrecomillar frases obliga al

buscador a encontrar paacuteginas que tengan esa frase completa

Buacutesqueda sencilla

httpwwwgoogleesintleshelpbasicshtml

iquestQueacute operador booleano utilizan por defecto las buacutesquedas sencillas Pon un

ejemplo

iquestGoogle permite la utilizacioacuten de comodines () para limitar la buacutesqueda Pon un

ejemplo

iquestGoogle diferencia los acentos y las mayuacutesculas y minuacutesculas Pon un ejemplo

Restricciones en la buacutesqueda

httpwwwgoogleesintleshelprefinesearchhtml

iquestCoacutemo se excluye una palabra de una estrategia de buacutesqueda Por ejemplo de la

buacutesqueda [biblioteca arte moderno] queacute debo hacer para excluir la palabra

moderno

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

iquestQueacute debo hacer para buscar una frase por ejemplo [gran hermano]

iquestCoacutemo puedo buscar noticias sobre la guerra de Irak soacutelo en el sitio web del

Elmundoes Especifica la estrategia de buacutesqueda

Buacutesqueda avanzada

httpwwwgoogleesadvanced_searchhl=es

Los buscadores de internet han superado ampliamente las claacutesicas posibilidades de

filtrado de preguntas basadas en el aacutelgebra booleana (operadores Y NO O en

ingleacutes AND OR y NOT) Por ejemplo google descarta por defecto el operador

booleano OR (historia O roma) asumiendo que su base de datos es tan grande

que o intenta ser muy especiacutefico o el resultado obtenido en una consulta de este

tipo tendraacute demasiado ruido esto saldraacuten demasiadas respuestas Aun asiacute nos

permite utilizarlo a voluntad en su buacutesqueda avanzada

Asiacute google busca por defecto con el operador AND (historia Y roma) y es maacutes

aplica por defecto un operador NEAR decreciente NEAR busca paacuteginas en las que

aparezca historia y tambieacuten roma con una o maacutes palabras de separacioacuten entre

ambos conceptos El nuacutemero de palabras se regula por 123 etc copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

27

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 25: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

25

FORMATO

El formato debe centildeirse a los siguientes apartados

1 Metodologiacutea de la evaluacioacuten [el estudiante debe enunciar las fuentes

consultadas y el conjunto de los paquetes de software analizados]

2 Evaluacioacuten del software [el estudiante debe recopilar la siguiente informacioacuten

del paquetes de software seleccionados]

Nombre del SW

Precio

Requerimientos que cumple

Compatibilidad con el sistema de informacioacuten

Compatibilidad con diferentes plataformas web

Indexacioacuten de materiales diversos

Usabilidad del entorno

Opciones de buacutesqueda

Idiomas

3 Propuesta del Departamento de Documentacioacuten[el estudiante debe comentar

algunos puntos a favor yo en contra del software propuesto como opcioacuten 1]

RECURSOS

Sullivan Danny Search Engine Software for your web site

SearchEngineWatchcom Sept 16 2002 (Consultado el 23-05-2006)

httpsearchenginewatchcomresourcessoftwarehtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

26

16 Anexo Introduccioacuten a Google

Presentacioacuten

Internet es una extensa red de documentos de muacuteltiples formatos desde paacuteginas

web en html a documentos de distintos tipos como puedan ser textos imaacutegenes

archivos de sonido o de viacutedeo etc Cuando necesitas buscar cierta informacioacuten en

Internet lo maacutes eficaz es utilizar un buscador ya que estas herramientas disponen

de robots que rastrean la web en busca de informacioacuten e indexan los documentos

seguacuten sus formatos y contenidos de tal forma que muestran a sus usuarios los

documentos relevantes con los criterios de buacutesqueda elegidos

Conocer adecuadamente las propiedades y herramientas de cada buscador nos

puede ayudar a restringir las buacutesquedas a lo que realmente es relevante para

nosotros sin embargo generalmente estos criterios son desconocidos por el

internauta medio ya que se basan en criterios documentales

Google es el buscador maacutes famoso y utilizado realizar una buacutesqueda bien acotada

es necesario incluir el maacuteximo de palabras relevantes para el usuario prestando

especial atencioacuten a los diferentes significados de una palabra Google determina los

resultados por las coincidencias y cercaniacutea de las palabras entre siacute Google tampoco

distingue entre mayuacutesculas y minuacutesculas ni acentos Entrecomillar frases obliga al

buscador a encontrar paacuteginas que tengan esa frase completa

Buacutesqueda sencilla

httpwwwgoogleesintleshelpbasicshtml

iquestQueacute operador booleano utilizan por defecto las buacutesquedas sencillas Pon un

ejemplo

iquestGoogle permite la utilizacioacuten de comodines () para limitar la buacutesqueda Pon un

ejemplo

iquestGoogle diferencia los acentos y las mayuacutesculas y minuacutesculas Pon un ejemplo

Restricciones en la buacutesqueda

httpwwwgoogleesintleshelprefinesearchhtml

iquestCoacutemo se excluye una palabra de una estrategia de buacutesqueda Por ejemplo de la

buacutesqueda [biblioteca arte moderno] queacute debo hacer para excluir la palabra

moderno

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

iquestQueacute debo hacer para buscar una frase por ejemplo [gran hermano]

iquestCoacutemo puedo buscar noticias sobre la guerra de Irak soacutelo en el sitio web del

Elmundoes Especifica la estrategia de buacutesqueda

Buacutesqueda avanzada

httpwwwgoogleesadvanced_searchhl=es

Los buscadores de internet han superado ampliamente las claacutesicas posibilidades de

filtrado de preguntas basadas en el aacutelgebra booleana (operadores Y NO O en

ingleacutes AND OR y NOT) Por ejemplo google descarta por defecto el operador

booleano OR (historia O roma) asumiendo que su base de datos es tan grande

que o intenta ser muy especiacutefico o el resultado obtenido en una consulta de este

tipo tendraacute demasiado ruido esto saldraacuten demasiadas respuestas Aun asiacute nos

permite utilizarlo a voluntad en su buacutesqueda avanzada

Asiacute google busca por defecto con el operador AND (historia Y roma) y es maacutes

aplica por defecto un operador NEAR decreciente NEAR busca paacuteginas en las que

aparezca historia y tambieacuten roma con una o maacutes palabras de separacioacuten entre

ambos conceptos El nuacutemero de palabras se regula por 123 etc copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

27

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 26: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

26

16 Anexo Introduccioacuten a Google

Presentacioacuten

Internet es una extensa red de documentos de muacuteltiples formatos desde paacuteginas

web en html a documentos de distintos tipos como puedan ser textos imaacutegenes

archivos de sonido o de viacutedeo etc Cuando necesitas buscar cierta informacioacuten en

Internet lo maacutes eficaz es utilizar un buscador ya que estas herramientas disponen

de robots que rastrean la web en busca de informacioacuten e indexan los documentos

seguacuten sus formatos y contenidos de tal forma que muestran a sus usuarios los

documentos relevantes con los criterios de buacutesqueda elegidos

Conocer adecuadamente las propiedades y herramientas de cada buscador nos

puede ayudar a restringir las buacutesquedas a lo que realmente es relevante para

nosotros sin embargo generalmente estos criterios son desconocidos por el

internauta medio ya que se basan en criterios documentales

Google es el buscador maacutes famoso y utilizado realizar una buacutesqueda bien acotada

es necesario incluir el maacuteximo de palabras relevantes para el usuario prestando

especial atencioacuten a los diferentes significados de una palabra Google determina los

resultados por las coincidencias y cercaniacutea de las palabras entre siacute Google tampoco

distingue entre mayuacutesculas y minuacutesculas ni acentos Entrecomillar frases obliga al

buscador a encontrar paacuteginas que tengan esa frase completa

Buacutesqueda sencilla

httpwwwgoogleesintleshelpbasicshtml

iquestQueacute operador booleano utilizan por defecto las buacutesquedas sencillas Pon un

ejemplo

iquestGoogle permite la utilizacioacuten de comodines () para limitar la buacutesqueda Pon un

ejemplo

iquestGoogle diferencia los acentos y las mayuacutesculas y minuacutesculas Pon un ejemplo

Restricciones en la buacutesqueda

httpwwwgoogleesintleshelprefinesearchhtml

iquestCoacutemo se excluye una palabra de una estrategia de buacutesqueda Por ejemplo de la

buacutesqueda [biblioteca arte moderno] queacute debo hacer para excluir la palabra

moderno

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

iquestQueacute debo hacer para buscar una frase por ejemplo [gran hermano]

iquestCoacutemo puedo buscar noticias sobre la guerra de Irak soacutelo en el sitio web del

Elmundoes Especifica la estrategia de buacutesqueda

Buacutesqueda avanzada

httpwwwgoogleesadvanced_searchhl=es

Los buscadores de internet han superado ampliamente las claacutesicas posibilidades de

filtrado de preguntas basadas en el aacutelgebra booleana (operadores Y NO O en

ingleacutes AND OR y NOT) Por ejemplo google descarta por defecto el operador

booleano OR (historia O roma) asumiendo que su base de datos es tan grande

que o intenta ser muy especiacutefico o el resultado obtenido en una consulta de este

tipo tendraacute demasiado ruido esto saldraacuten demasiadas respuestas Aun asiacute nos

permite utilizarlo a voluntad en su buacutesqueda avanzada

Asiacute google busca por defecto con el operador AND (historia Y roma) y es maacutes

aplica por defecto un operador NEAR decreciente NEAR busca paacuteginas en las que

aparezca historia y tambieacuten roma con una o maacutes palabras de separacioacuten entre

ambos conceptos El nuacutemero de palabras se regula por 123 etc copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

27

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 27: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

iquestQueacute debo hacer para buscar una frase por ejemplo [gran hermano]

iquestCoacutemo puedo buscar noticias sobre la guerra de Irak soacutelo en el sitio web del

Elmundoes Especifica la estrategia de buacutesqueda

Buacutesqueda avanzada

httpwwwgoogleesadvanced_searchhl=es

Los buscadores de internet han superado ampliamente las claacutesicas posibilidades de

filtrado de preguntas basadas en el aacutelgebra booleana (operadores Y NO O en

ingleacutes AND OR y NOT) Por ejemplo google descarta por defecto el operador

booleano OR (historia O roma) asumiendo que su base de datos es tan grande

que o intenta ser muy especiacutefico o el resultado obtenido en una consulta de este

tipo tendraacute demasiado ruido esto saldraacuten demasiadas respuestas Aun asiacute nos

permite utilizarlo a voluntad en su buacutesqueda avanzada

Asiacute google busca por defecto con el operador AND (historia Y roma) y es maacutes

aplica por defecto un operador NEAR decreciente NEAR busca paacuteginas en las que

aparezca historia y tambieacuten roma con una o maacutes palabras de separacioacuten entre

ambos conceptos El nuacutemero de palabras se regula por 123 etc copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

27

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 28: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

28

De este modo si tecleamos en la cajetilla de buacutesqueda nuestras dos palabras (

historia - roma) intenta encontrar primero las palabras adyacentes y en el orden

en que se han escrito Despueacutes aumenta NEAR de NEAR 1 a NEAR 23 etc

independientemente del orden en que fueron escritas en la buacutesqueda (query)

aunque esta caracteriacutestica se combina con los otros paraacutemetros de asignacioacuten del

raacutenking de google

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localizar informacioacuten en formato pdf

sobre accesibilidad de sitios web y que los teacuterminos se encuentre en el tiacutetulo de la

paacutegina

iquestCuaacutel seriacutea la estrategia de buacutesqueda para localiza informacioacuten sobre opacs en

catalaacuten y publicada en los uacuteltimos 3 meses

iquestCoacutemo buscariacuteas paacuteginas similares a wwwboees

iquestCoacutemo buscariacuteas las paacuteginas que tienen un enlace a httpwwweubducmes

Aplicaciones tecnoloacutegicas de google

httplabsgooglecom

iquestPara buscar bibliotecas en Orlando que aplicacioacuten se debe utilizar

iquestPara recibir noticias sobre motores de buacutesqueda una vez a la semana que

aplicacioacuten se debe usar

Google Page Rank

httptrucosdegoogleblogspotcom2002_12_01_trucosdegoogle_archivehtml85

791235

httpwwwwebtallercomgooglepagerankphp

httpwwwhipertextnetwebpag216htm

iquestQueacute es Google Page Rank y coacutemo funciona

Prestaciones especiales de Google

httpwwwgoogleesintlesfeatureshtml

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 29: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

29

iquestGoogle permite prestaciones de calculadora y realizar operaciones baacutesicas Pon

algunos ejemplos de eacutexito y error

iquestCoacutemo se pueden conocer las paacuteginas que apuntan o tienen un enlace a una

determinada url Por ejemplo las paacuteginas que apuntan a httpwwweubducmes

iquestQueacute es y coacutemo funciona el botoacuten ldquoVoy a tener suerterdquo

Google para empresas

httpwwwgoogleesenterpriseindexhtml

Google Mini permite realizar buacutesquedas rentables y de alta calidad en el sitio web

puacuteblico o la intranet de su empresa y se instala y se pone en marcha en menos de

una hora

Google Search Appliance indexa todo tipo de contenido de su intranet y sitios web

por lo que constituye una solucioacuten soacutelida escalable y rentable para las necesidades

de buacutesqueda de su empresa

Servicios especiacuteficos de Google para documentalistas

La estrategia de motores de buacutesqueda como Google que comienza a realizar tareas

que tradicionalmente han realizado organizaciones intermediarias de informacioacuten

como las bibliotecas o los servicios de informacioacuten cientiacutefica (ISI)

Algunos ejemplos recogidos en

httpwwwgooglecomserviceslibrarian_centerhtml son

1 Google Scholar Un motor de buacutesqueda dirigido a docentes y cientiacuteficos que se

constituye como un verdadero servicio de informacioacuten y vigilancia cientiacutefica con

informacioacuten a texto completo

Maacutes informacioacuten

El mundoes Google Scholar la versioacuten beta de un buscador para docentes y

cientiacuteficos httpwwwel-

mundoesnavegante20041119empresas1100856475html

2 Google Print digitalizacioacuten e indexacioacuten de millones de libros con acceso libre

y gratuito

Maacutes informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 30: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

30

20Minutos Google Print llega a Espantildea y a otros siete paiacuteses europeos

httpwww20minutosesnoticia576850GooglePrintlibros

Noticiasdotcom La Biblioteca Google despierta entusiasmo y temores entre

profesionaleshttpwwwnoticiasdotcompublicaciones200412041612noticias1

61204noticias161204-15htm

El mundoes Google digitalizaraacute los libros de cinco de las mejores universidades del

mundo httpwwwel-mundoesnavegante20041214cultura1103031183html

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 31: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

31

2 El posicionamiento en los motores de buacutesqueda

21 Concepto de posicionamiento web

Posicionamiento se puede definir como el conjunto de procedimientos que permiten

colocar un sitio o una paacutegina web en un lugar oacuteptimo entre los resultados

proporcionados por un motor de buacutesqueda Por extensioacuten Optimizar una paacutegina

web de cara a los resultados proporcionados por los motores de buacutesqueda En este

sentido esta disciplina a veces se denomina tambieacuten ldquooptimizacioacuten en motores de

buacutesquedardquo Esto es el conjunto de procedimientos para mejorar la posicioacuten de un

recurso electroacutenico en los resultados de un motor de buacutesqueda se denomina

posicionamiento web (web positioning) o bien optimizacioacuten en motores de

buacutesqueda (search engine optimization SEO) La posicioacuten relativa de un recurso

electroacutenico depende de maacutes de 100 paraacutemetros que recogen los algoritmos que

utilizan los robots de los buscadores para encontrar este recurso entre los millones

que tienen indexados Ademaacutes los paraacutemetros que utilizan los diferentes motores

de buacutesqueda no son conocidos ya que forman parte de su ventaja competitiva y

son objeto de secreto industrial

El posicionamiento se puede alcanzar mediante una planificacioacuten o bien de forma

natural

bull Posicionamiento planificado el posicionamiento que consigue una paacutegina

o un sitio web debido a una campantildea consciente y planificada El

posicionamiento planificado puede ser eacutetico o fraudulento

bull Posicionamiento natural el posicionamiento que consigue una paacutegina o

un sitio de modo espontaacuteneo es decir sin que sea consecuencia de una

campantildea consciente o planificada

22 Criterios baacutesicos para el posicionamiento

Los motores de busca mantienen en secreto el detalle uacuteltimo de sus

procedimientos ya que se trata de una informacioacuten susceptible de conferirles

ventaja competitiva y por tanto la consideran un secreto industrial Por este

motivo todo aquello que los estudiosos y profesionales afirman sobre el tema en

realidad es o bien simple especulacioacuten o bien resultado de inferencias indirectas

Es decir a partir de la observacioacuten y del anaacutelisis de los resultados existe un cierto

consenso entre los analistas sobre queacute clase de criterios usan los motores de

buacutesqueda para ordenar los resultados

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 32: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

32

A continuacioacuten se especifican algunos criterios que a juicio de la mayor parte de

los analistas siguen los tres o cuatro mayores motores de buacutesqueda generalistas

(Google Yahoo HotBot y MSN entre otros) Ahora bien aunque toda la evidencia

apunta hacia el hecho de que los criterios sentildealados a continuacioacuten son los maacutes

importantes se ignora como combinan en cada momento la importancia de cada

uno de ellos Ademaacutes tales criterios pueden variar a lo largo del tiempo

A modo de siacutentesis los motores de buacutesqueda combinan dos grupos de criterios

internos a la paacutegina web y externos a la paacutegina web

221 Criterios de optimizacioacuten internos a la paacutegina web

Se trata de criterios intriacutensecos a la paacutegina web que forman parte de su contenido

tanto mediante la codificacioacuten realizada en el lenguaje de marcado correspondiente

como en los metadatos utilizados para la descripcioacuten del recurso electroacutenico o

paacutegina web

Optimizacioacuten de palabras clave La seleccioacuten oacuteptima de las palabras clave es la

base de toda estrategia de posicionamiento web por tanto se profundizaraacute maacutes

adelante sobre este criterio

Optimizacioacuten de los tiacutetulos Dado que la etiqueta lttitlegttiacutetulolttitlegt situada

en el ltheadgt de una paacutegina web es lo que los buscadores muestran en la lista de

resultados el objetivo de la optimizacioacuten es doble Por un lado debe ser un reclamo

para que los usuarios entren en la web y por otro debe estar configurado de tal

forma que los buscadores otorguen una buena posicioacuten a la web Para alcanzar

buenos rankings de relevancia se aconseja redactar tiacutetulos de entre 5 y 10 palabras

en los que se mencione por lo menos una vez las keywords que optimizan la web

Ademaacutes se debe especificar la estructura fundamental en la que la paacutegina se

encuentra enmarcada por ejemplo ldquoAyuda para la consulta ndash Cataacutelogo general ndash

Biblioteca Nacionalrdquo

Las metaetiquetas o metadatos Los lenguajes de marcado (html xhtml dhtml

etc) permiten utilizar una serie de etiquetas denominadas Meta a traveacutes de las

cuales se puede antildeadir una serie de informaciones sobre una paacutegina

Principalmente se suelen utilizar para describir el contenido a traveacutes de pequentildeos

resuacutemenes y palabras-clave Hay robots que son capaces de identificar las

etiquetas META y extraer la informacioacuten de las mismas para ser usada en la

buacutesqueda o en la presentacioacuten de resultados

Los metadatos estaacuten incluidos dentro de la etiqueta ltheadgt tienen como objetivo

ofrecer a los buscadores informacioacuten acerca del recurso electroacutenico Las maacutes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 33: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

33

importantes son (ademaacutes del tiacutetulo comentado maacutes arriba) la etiqueta META

DESCRIPTION (describe el contenido de la paacutegina y sirve de descripcioacuten en los

resultados de algunos buscadores) la etiqueta META KEYWORDS (actualmente casi

todos los buscadores la ignoran debido a su manipulacioacuten para conseguir mayor

relevancia) Tambieacuten tienen especial relevancia la etiqueta META LANGUAGE (indica

el idioma de la paacutegina) y la etiqueta META ROBOTS (indica al buscador si se desea

indexar la paacutegina yo se desean seguir los links) A pesar de que algunos motores

de buacutesqueda no los tienen en cuenta se recomienda continuar creaacutendolas para

cada una de las paacuteginas de la web puesto que suelen ser un factor relacionado con

la calidad del recurso y se pueden utilizar para otros propoacutesitos relacionados con la

gestioacuten de recursos electroacutenicos

Elementos de descripcioacuten contextual ademaacutes de los metadatos de la seccioacuten

head (principalmente title description y keywords ) otras etiquetas tambieacuten

proporcionan informacioacuten descriptiva de utilidad para los buscadores y donde se

deben colocar las palabras clave secundarias

bull Los encabezados que se codifican mediante ltHngt (donde n es un nuacutemero

del 1 al 6) se utilizan para estructurar jeraacuterquicamente los contenidos

principales de una paacutegina web Por tanto aquellas palabras clave

destacadas deberiacutean situarse en los niveles de encabezado maacutes altos esto

es H1 y H2

bull El texto de los enlaces que es la parte activa codificada mediante lta

href=rdquourlrdquogttextoltagt y donde se establecen enlaces internos o externos a

los contenidos del sitio web contenidos cuyos textos se consideran

importantes como palabra clave para la indexacioacuten por parte de los motores

de buacutesqueda

bull Los ldquoaltrdquo de las imaacutegenes seguacuten las Pautas de accesibilidad a los

contenidos web se preveacute que todas las imaacutegenes deben contener un alt

(alternative text o texto alternativo) que debe describir el contenido

fundamental de la imagen Si la imagen no transmite informacioacuten el atributo

alt debe ir vaciacuteo

bull Los ldquotitlerdquo de los enlaces y las imaacutegenes en principio la utilizacioacuten del

atributo title para enlaces e imaacutegenes aunque es valorado por algunos

motores de buacutesqueda puede entrar en contradiccioacuten con los criterios

fundamentales de la accesibilidad web En accesibilidad web soacutelo se debe

incluir el atributo ldquotitlerdquo en un enlace cuando no es posible activar alguna

palabra o palabras significativas Ademaacutes aunque el atributo title se acepta

para las imaacutegenes las Pautas de accesibilidad a los contenidos web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 34: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

34

recomiendan la utilizacioacuten de ldquoaltrdquo y no mencionan de forma positiva o

negativa la utilizacioacuten del atributo ldquotitlerdquo

bull La etiqueta ldquostrongrdquo que se codifica mediante ltstronggttextoltstronggt y

denota que el texto destacado como ldquostrongrdquo tiene cierta importancia La

etiqueta ldquostrongrdquo se utiliza como equivalente a ltbgt (bold) que es una

etiqueta desaconsejada en HTML La etiqueta ldquostrongrdquo tiene mucho peso

semaacutentico y se muestra en los navegadores como negrita

bull La etiqueta ldquoemrdquo que se codifica mediante ltemgttextoltemgt se utiliza

para dar eacutenfasis a una palabra o frase marcando de forma distintiva los

puntos maacutes importantes de un texto La etiqueta ldquoemrdquo tiene menos peso

semaacutentico que ldquostrongrdquo y se muestra en los navegadores como cursiva

Palabras clave secundarias Las keywords secundarias se deben distribuir

correctamente en el texto de una paacutegina Se recomienda una densidad (porcentaje

de palabras clave sobre el total de palabras) de entre el 5 y el 8 Seguacuten el

principio del keyword proximity se recomienda situarlas lo maacutes cerca posible del

principio de la paacutegina Para darles maacutes importancia existen varias etiquetas ltHngt

ltigt ltbgt ltstronggt y ltligt La keyword principal se resalta con un ltH1gt y debe

colocarse cerca del principio de la paacutegina

222 Criterios de optimizacioacuten externos a la paacutegina web

El PageRank Es un valor entre 1 y 10 que depende de la cantidad y calidad de las

webs que tengan links hacia la web de referencia asiacute como de sus links internos El

PR transmitido por las webs depende a su vez del PR propio y del nuacutemero de links

salientes que tenga esa paacutegina [2] La foacutermula del PR es la siguiente PR(A) = (1-

d) + d (PR(T1)C(T1) ++ PR(Tn)C(Tn)) PR(A) es el PageRank de la paacutegina

de referencia d es un factor de debilitacioacuten (1-d) asegura que cualquier paacutegina

aunque no reciba ninguacuten enlace tendraacute un PR miacutenimo de 015 PR(Ti)C(Ti) es el

PageRank (PR) de la paacutegina i-eacutesima que enlaza a la web de referencia (Ti) dividido

por todos los enlaces (C) que tambieacuten salen de esa paacutegina Ti es decir el PR que

transmite i = 1n ya que se suponen n paacuteginas que enlacen a la de referencia

El texto de los links El texto de los enlaces que apuntan a una paacutegina es

considerado por algunos como el recurso nuacutemero uno de la optimizacioacuten Las

palabras clave se deben colocar en el texto que actuacutea como anchor de la etiqueta

de un link

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 35: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

35

Los links externos Dado que los motores de buacutesqueda usan medidas de

popularidad de enlaces (cantidad de sitios relacionados o autoritativos que

enlazan a una determinada web) para determinar los rangos de los resultados de

las buacutesquedas se recomienda la implementacioacuten de estrategias de Popularidad de

Enlaces como pueden ser el alta en Directorios o el intercambio de links

23 Los metadatos y el posicionamiento web

231 Concepto de metadatos

Los metadatos o datos representacionales son definidos como el dato sobre los

datos es un conjunto de elementos que poseen una semaacutentica comuacutenmente

aceptada o sea tratan de representar la informacioacuten electroacutenica tan dispersa y

representan a la descripcioacuten bibliograacutefica de recursos electroacutenicos Estos datos

abarcan aacutembitos tanto individuales como colectivos tambieacuten documentos recursos

de Internet e incluso objetos reales Nace de la necesidad de recuperar la

informacioacuten electroacutenica tan dispersa Los metadatos tratan principalmente de

describir el contenido y la localizacioacuten del objeto de la informacioacuten en Internet

Una de las caracteriacutesticas mas importantes de los metadatos va a ser su capacidad

de relacioacuten o de establecer enlaces De esta forma se han hecho imprescindibles en

la recuperacioacuten global de la informacioacuten en Internet puesto que se trata de indizar

y clasificar inconmensurables cantidades de informacioacuten de diversos tipos Se

trataraacute de integrar de forma heterogeacutenea fuentes de informacioacuten muy diversas asiacute

como integrar diferentes formatos de bases de datos O sea se emplean metadatos

para organizar el contenido de la informacioacuten en Internet De esta forma en la

definicioacuten de metadatos podemos incluir y de forma mas especiacutefica se refiere a la

informacioacuten accesible por Internet Por lo que los metadatos tienen el objetivo

primordial de que los documentos introducidos en la Red incluyan todos los datos

necesarios para su posterior buacutesqueda localizacioacuten y recuperacioacuten Ya que

introducir o publicar dentro de Internet es una tarea sencilla sin embargo la

localizacioacuten control y uso de la informacioacuten es una tarea mas compleja Por tanto

seraacute una tarea primordial establecer las normas y elementos que ha de contener

cualquier descripcioacuten y catalogacioacuten de recursos en Internet

Un cataacutelogo de biblioteca o un repertorio bibliograacutefico son tipos de metadatos Estos

tipos de metadatos emplean fundamentalmente reglas de catalogacioacuten y formatos

para transmitir la informacioacuten como los formatos MARC Por lo que nuestra primera

idea de metadatos van a ser los cataacutelogos bibliotecarios y bibliograacuteficos O sea

cada ficha es un metadato de un libro o bien de un autor y los metadatos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 36: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

36

proporcionan una informacioacuten baacutesica sobre las obras de un autor y lo relaciona con

otras obras del mismo autor u otras obras de similar contenido Lo que hasta ahora

veniacutea denominaacutendose descripciones bibliograacuteficas o registros bibliograacuteficos hoy diacutea

van a ser denominados metadatos o sea que tienen como objetivo la descripcioacuten de

los recursos de Internet

Existen varios gestores de metadatos que tratan de unificar el mapa representado

para cada documento los elementos de los datos y la conversioacuten de varias sintaxis

en una sola El movimiento de metadatos en Internet trata de integrar distintos

formatos de metadatos de las bases de datos para ser integrados conjuntamente

aunandose el legado de los cataacutelogos automatizados de las bibliotecas y una

estructura de cataacutelogos electroacutenicos o tambieacuten denominados cataacutelogos

hipertextuales donde su idiosincrasia radica no solo en las formas tradicionales de

acceso sino en la propia estructura del hipertexto con enlaces tanto para la

clasificacioacuten sistemaacutetica como para la alfabeacutetica e incluso para toda la descripcioacuten

bibliograacutefica Ya que se trata de una estructura articulada con distintos tipos de

enlaces De esta forma los servicios y fuentes de los cataacutelogos electroacutenicos van a

estar accesibles tambieacuten a traveacutes de los denominados buscadores y de las propias

fuentes de las paacuteginas Web Puesto que la nueva estructura de las bases de datos

es accesible a traveacutes de las paacuteginas Web supone que las usuales bases de datos

transformen su propia estructura

Asiacute la arquitectura navegable y jeraacuterquica reporta a los diferentes metadatos de

distintos formatos para que converjan en uno y ademaacutes posibilita establecer una

estructura de enlaces que los haga accesibles Existen varios modelos de

metadatos pero en la aplicacioacuten bibliograacutefica y bibliotecaria se ha extendido e

implantado de forma mas mayoritaria el formato denominado Dublin Core o

Ciacuterculo de Dublin creado por las iniciativas de las asociaciones de bibliotecarios

americanos y en concreto por OCLC (On Line Computer Library Catalog ) Se trata

de un formato bastante standard para las fuentes de Internet originariasmente

bibligraacuteficas y bibliotecarias Es un formato de metadatos basado en la asociacioacuten

de superenlaces y estableciendo mapas semaacutenticos similares a los elementos y

estructuras con metadatos standares O sea se trata de un sistema de conversioacuten

de metadatos que abarca y contiene metainformacioacuten esta conversioacuten necesita

todaviacutea de la intervencioacuten humana e identifica y enlaza las paacuteginas Web En

definitiva es un formato muy simple que incluso puede ser aplicado por

catalogadores no muy expertos

Los metadatos Dublin Core tratan de ubicar en el entramado de Internet los datos

necesarios para describir identificar procesar encontrar y recuperar un documento

introducido en la Red Si este conjunto de elementos Dublin Core se lograra aceptar

internacionalmente supondriacutea que todos los robots que indizan documentos en

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 37: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

37

Internet encontrariacutean en la cabecera de los mismos todos los datos necesarios

para su indizacioacuten y ademaacutes estos datos seriacutean uniformes La eficacia de estos

robots cono Google Altavista Yahoo y otros mejorariacutea notablemente

232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten

La aplicacioacuten de metadatos supone una mejora en la organizacioacuten y recuperacioacuten

de la informacioacuten tanto de forma humana como automatizada La gran incoacutegnita

en este sentido consiste en determinar los beneficios especiacuteficos que aportan los

metadatos en la buacutesqueda y recuperacioacuten de la informacioacuten web sobre todo

cuando muchos motores de buacutesqueda no utilizan los metadatos como un criterio en

la indexacioacuten de los recursos electroacutenicos y por tanto no se utilizan para la

buacutesqueda Si embargo existe una amplia gama de software de motor de buacutesqueda

para la indexacioacuten de los recursos del sitio web la Intranet y los productos

electroacutenicos (CD-ROMs DVDs y otros productos que utilicen tecnologiacutea web) de las

organizaciones que indexan y gestionan metadatos

Algunos motores de buacutesqueda (como Convera Harvest Blue Angel Microsoft Site

Index etc) son capaces de utilizar los metadatos y otras herramientas de

representacioacuten del conocimiento (como ontologiacuteas y topic maps) para obtener

mejores resultados en la recuperacioacuten Por tanto aunque las organizaciones

puacuteblicas pueden sentirse reticentes ante la incorporacioacuten de metadatos en sus

recursos de informacioacuten debido al esfuerzo econoacutemico que ello supone (coste de

personal y tecnologiacutea) es importante que la Administracioacuten Puacuteblica en su conjunto

tome conciencia de la importancia de los metadatos para mejorar la relevancia de

los sistemas de recuperacioacuten de informacioacuten asiacute como para facilitar la integracioacuten y

combinacioacuten de recursos heterogeacuteneos en el desarrollo de servicios electroacutenicos y

mejorar el acceso de los usuarios a los recursos

Los sistemas de recuperacioacuten de la informacioacuten en Internet de propoacutesito general

(motores de buacutesqueda) se basan en la extraccioacuten automaacutetica de la informacioacuten y

utilizan sencillas teacutecnicas para representar el conocimiento contenido en los

recursos electroacutenicos Por tanto no pueden dar una respuesta precisa a una

pregunta concreta sobre el contenido semaacutentico de los documentos y por ello

recuperan mucho ruido Sin embargo los sistemas de recuperacioacuten en sectores

especiacuteficos como la informacioacuten puacuteblica dado que todos los recursos de

informacioacuten son objeto de descripcioacuten organizacioacuten y control del vocabulario

ofrecen mayor relevancia en la recuperacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 38: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

38

La existencia de un compromiso para que la informacioacuten de caraacutecter puacuteblico se

adapte a unos estaacutendares y contemple el uso de metadatos en todos los recursos

electroacutenicos y digitales favorece la recuperacioacuten de la informacioacuten en este aacutembito

de conocimiento La clave esencial reside en la aplicacioacuten de metadatos de forma

sistemaacutetica normalizada y coherente Con este proceso se facilita la descripcioacuten de

todos los recursos de la organizacioacuten (aplicacioacuten sistemaacutetica) el intercambio de

informacioacuten (mediante la normalizacioacuten) y su adaptacioacuten a nuevas formas

tecnoloacutegicas (aplicacioacuten coherente)

2321 La iniciativa Dublin Core

La Iniciativa de Metadatos Dublin Core DCMI es una organizacioacuten dedicada a la

promocioacuten y difusioacuten de normas interoperables sobre metadatos y el desarrollo de

vocabularios especializados en metadatos para la descripcioacuten de recursos que

permitan sistemas de recuperacioacuten mas inteligentes

Uno de los esfuerzos de los participantes de DCMI es el desarrollo en colaboracioacuten y

el continuo perfeccionamiento de convenciones sobre metadatos basados en la

investigacioacuten y la opinioacuten entre los Grupos de Trabajo DCMI

2322 Los elementos Dublin Core

Los elementos poseen nombres descriptivos que pretenden transmitir un significado

semaacutentico a los mismos Para promover una interoperabilidad global una

descripcioacuten del valor de algunos elementos podraacute ser asociada a vocabularios

controlados Se asume que otros vocabularios controlados seraacuten desarrollados para

asegurar esta interoperabilidad en dominios especiacuteficos

Cada elemento es opcional y puede repetirse Ademaacutes los elementos pueden

aparecer en cualquier orden

Aunque algunos entornos como HTML no diferencian entre mayuacutesculas y

minuacutesculas es recomendable escribir correctamente cada metadata seguacuten su

definicioacuten para evitar conflictos con otros entornos como XML (Extensible Markup

Language) httpwwww3orgTRPR-xml

Podemos clasificar estos elementos en tres grupos que indican la clase o el aacutembito

de la informacioacuten que se guarda en ellos

Elementos relacionados principalmente con el contenido del recurso

Elementos relacionados principalmente con el recurso cuando es visto como

una propiedad intelectual

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 39: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

Elementos relacionados principalmente con la instanciacioacuten del recurso

Tabla Clasificacioacuten de los elementos DC

Contenido Propiedad Intelectual Instanciacioacuten

Title Creator Date

Subject Publisher Type

Description Contributor Format

Source Rights Identifier

Language

Relation

Coverage

Maacutes informacioacuten httpesdublincoreorgdocumentsdces

24 La optimizacioacuten de las palabras clave

Una palabra clave en el aacutembito del posicionamiento en Internet ser refiere al

teacutermino respecto al cual se persigue la optimizacioacuten de una paacutegina web Puede ser

una palabra uacutenica como Arte o una frase como Subastas de Arte Optimizar

para una frase siempre seraacute maacutes faacutecil que para una palabra clave a su vez

posicionar para una combinacioacuten de dos palabras clave siempre seraacute maacutes faacutecil que

posicionar para cada palabra clave aislada Por ejemplo siempre seraacute maacutes faacutecil

posicionar para una pregunta del tipo ltArteAND Barcelonagt que para cada una

por separado Al mismo tiempo se ha comprobado empiacutericamente que es muy

difiacutecil posicionar a la vez un mismo sitio para maacutes de tres o cuatro palabras clave

(cada una de ellas por separado) Tambieacuten es mucho maacutes difiacutecil optimizar un sitio

por una palabra clave cuanto maacutes competitiva sea la palabra clave es decir

cuando muchas paacuteginas y muchos sitios web contienen esa palabra Por ejemplo

probablemente es mucho maacutes difiacutecil posicionar un sitio para la palabra clave

hardwareque para la palabra clave arantildeas La primera tiene mucha presioacuten copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

39

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 40: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

40

comercial con muchos sitios queriendo posicionarse a diferencia de la segunda En

general la palabra clave ideal seriacutea alguna que fuera muy buscada pero con pocos

sitios web que la contengan La peor palabra clave seriacutea una muy poco buscada y

con muchos sitios que la contengan La mayor parte de las veces tendremos que

conformarnos con una palabra clave o grupo de palabras clave que mantengan un

cierto equilibrio entre ambos elementos

La seleccioacuten de palabras clave es considerada como el factor maacutes importante en el

posicionamiento en buscadores y es la base de toda estrategia SEO Para una

seleccioacuten oacuteptima de keywords se deben tener en cuenta los siguientes puntos

Popularidad de las Keywords

Competencia por las keywords

Relevancia desde el punto de vista del Marketing

Relacioacuten de las keywords con el contenido de la web

Popularidad de las Keyword Dado que las palabras individuales son en general

muy buscadas suelen atraer mucha competencia La solucioacuten a este problema es

elegir frases clave compuestas de entre dos a cinco palabras para la

optimizacioacuten de cada paacutegina Tambieacuten se recomienda optimizar las paacuteginas para

palabras clave de gran popularidad mal escritas (pej palavras por palabras) Para

estas variantes la competencia seraacute mucho menos intensa

Competencia por las keyword Al optar por palabras clave de gran competencia

existe el riesgo de que la web se pierda entre la multitud de resultados del

buscador Debido a esta alta demanda por algunas palabras se aconseja identificar

un nicho o conjunto de palabras clave que describan claramente la web y que soacutelo

unos pocos hayan elegido antes

Relevancia desde el punto de vista del Marketing En el disentildeo de una buena

estrategia de marketing para buscadores se consideran multitud de aspectos Por

un lado es necesario tener un excelente conocimiento de nuestro puacuteblico objetivo

es decir queacute buscadores suelen utilizar y queacute palabras clave usan para encontrar

un producto o servicio En este contexto es importante dotar a los productos de la

web de palabras clave especiacuteficas y precisas ya que eacutestas tienen la ventaja de

tener menos competencia y de asegurar visitas maacutes cualificadas Por otro lado se

debe tener en cuenta que los usuarios de un buscador no piensan como un director

de marketing y que lo que suena bien para un eslogan promocional no corresponde

a las frases que probablemente se utilizaraacuten en un buscador

Relacioacuten de las keyword con el contenido del site Se deben elegir no soacutelo las

palabras clave que encajan con los contenidos de la web sino ademaacutes las palabras

clave que los usuarios usan para encontrar sitios como el de la web a optimizar Por

regla general para cualquier paacutegina con contenidos escritos superiores a las 250

palabras se recomienda utilizar de una a tres palabras clave

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 41: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

41

Teniendo en cuenta los puntos anteriores y tras elegir las keywords que

identifiquen la web se debe optimizar la paacutegina principal para las keywords que

mejor se ajusten al site El siguiente paso es optimizar las paacuteginas secundarias para

las keywords que identifiquen esas paacuteginas No obstante no hay que olvidar

agregar siempre en todas ellas la keyword de la paacutegina principal Asiacute se destaca

esa palabra clave representativa de la web y se consiguen tambieacuten buenas

posiciones para las keywords secundarias

25 La planificacioacuten de un proyecto de posicionamiento

251 Plan de posicionamiento

El posicionamiento web se refiere a la posicioacuten relativa de su sitio web frente a los

demaacutes sitios como resultado de una buacutesqueda de teacuterminos relacionados con su

negocio en los buscadores La posicioacuten relativa de su web depende de maacutes de 100

paraacutemetros que recogen los algoritmos que utilizan los robots de los buscadores

para encontrar su paacutegina entre las millones que tienen indexadas

Nuestros servicios de posicionamiento en buscadores o SEO (Search Engine

Optimization) estaacuten disentildeados para optimizar sobre tecnologiacutea punta los

paraacutemetros maacutes significativos para que su sitio web logre posicionarse entre las

primeras posiciones en los principales buscadores (Google Yahoo MSN Hispanista

y otros) cuando un usuario busque los teacuterminos maacutes relacionados con su negocio

Tareas

Auditoria de estructura de navegacioacuten disentildeo tecnologiacuteas empleadas y

contenidos de su web (Validacioacuten de lenguajes de marcado encabezados de

paacutegina alt de las imaacutegenes textos de los links metadatos normalizados

etc)

Informe de recomendaciones de cambios y ajustes en base a paraacutemetros

criacuteticos

Ejecucioacuten de cambios y ajustes

Evaluacioacuten final de visibilidad por teacuterminos relacionados y por marca

252 Alta en los principales buscadores

El alta en buscadores se refiere al proceso de registrar (indexar) un sitio web en los

motores de buacutesqueda La finalidad de este proceso es que los robots o spiders de

los motores de buacutesqueda consideren a su sitio web como resultado potencial de las

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 42: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

42

buacutesquedas que realizan Si su sitio web no estaacute indexado seraacute invisible para los

mismos por lo que representa un paso obligatorio y fundamental en el proceso de

posicionamiento

253 Enlaces patrocinados

Las campantildeas de enlaces patrocinados permiten una flexibilidad absoluta y casi

instantaacutenea en su gestioacuten pudiendo manejar raacutepida y eficazmente y hacer cambios

en sus campantildeas en tiempo real

Los enlaces patrocinados son altamente recomendados para la promocioacuten de

nuevos productos o para dar a conocer su paacutegina web de forma raacutepida y efectiva

Ademaacutes son el complemento perfecto a las acciones publicitarias convencionales

ya que los usuarios tienden a buscar en Internet informacioacuten adicional sobre los

productos que desean adquirir

La inversioacuten necesaria para optimizar una campantildea de enlaces patrocinados

depende de factores tanto cuantitativos como cualitativos

Factores cuantitativos como la competencia En sectores de gran presencia

en la red las palabras clave pueden superar los 3 euros el clic Sin embargo

en mercados poco maduros se puede comenzar a pujar desde 005euro el clic

Factores cualitativos como la calidad de redaccioacuten de los textos que figuran

en los enlaces patrocinados Un anuncio maacutes atractivo editorialmente

hablando tendraacute una frecuencia de click superior por tanto recibiraacute un

mayor nuacutemero de clicks por lo que el sistema de gestioacuten de pujas tendraacute

este factor muy en cuenta a la hora de colocar el anuncio en una

determinada posicioacuten

Tareas

Anaacutelisis previo y planificacioacuten de la estrategia de e-marketing

Elaboracioacuten de listados de palabras clave

Creacioacuten de contenidos publicitarios (banners y enlaces patrocinados)

Lanzamiento y supervisioacuten de la campantildea de e-marketing

Informe de resultados

Para la realizacioacuten de las tareas anterioes de una forma eficiente se recomienta

utilizar alguacuten tipo de software especializado como Atlas Search o Dart Search para

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 43: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

43

gestionar de forma integrada las campantildeas de enlaces patrocinados en Google

adwords Yahoo Search Marketin MSN adcenter MIVA y otros

254 Servicios de consultoriacutea

Algunos servicios de consultoriacutea que complementan un plan de posicionamiento son

los siguientes

1 Anaacutelisis de la audiencia Se realiza la comparativa de los las palabras clave

maacutes significativas para un sector o materia determinados y por otro el potencial

de traacutefico y clicks estimados Se emplea para conocer las palabras clave maacutes

relevantes y maacutes uacutetiles para nuestros servicios

2 Anaacutelisis de la competencia Se realiza una comparativa de las audiencias de

las 10 palabras clave maacutes significativas para un sector o materia determinados

comparando con un nuacutemero determinado de competidores Este estudio se emplea

para conocer con todo detalle la fortaleza respecto a la competencia

3 Anaacutelisis de visibilidad Se realiza una comparativa de los posicionamientos

logrados por unas palabras clave en los 8 principales buscadores (99 del mercado

de buacutesquedas espantildeol) Se emplea para medir y conocer en que situacioacuten nos

encontramos actualmente en buscadores y lo faacutecil o difiacutecilmente que un site es

visible para su target

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 44: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

44

26 Bibliografiacutea

Azlor S (2003) Posicionamiento en buscadores guiacutea baacutesica httpwwwguia-

buscadorescomposicionamiento

Codina Lluiacutes (2004) Posicionamiento web conceptos y ciclo de vida Anuario

Hipertextnet httpwwwhipertextnet

Codina Lluiacutes Marcos Mari Carmen (2005) ldquoPosicionamiento web conceptos y

herramientasrdquo El profesional de la informacioacuten v 14 n 2 pp 84-99

Dublin Core Metadata Initiative httpesdublincoreorgindexshtml

Gonzalo Carlos (2004) La seleccioacuten de palabras clave para el posicionamiento en

buscadores conceptos y herramientas de estudio Anuario Hipertextnet

httpwwwhipertextnet

Mari-Carmen Marcos et al (2006) Evaluacioacuten del posicionamiento web en sistemas

de informacioacuten terminoloacutegicos online [on line] Hipertextnet nuacutem 4 2006

httpwwwhipertextnet

Martiacutenez Usero Joseacute Angel (2006) El uso de metadatos para mejorar la

interoperabilidad del conocimiento en los servicios de administracioacuten electroacutenica

En El profesional de la informacioacuten 2006 vol15 n 2 pp 114 -126

MOEN Willian E (2001) The metadata approach to accessing government

information Government Information Quaterly 18 (2001) p 155-165

Proyectos Dublin Core httpesdublincoreorgprojectsindexshtml

Red Iris Metainformacioacuten - Dublin Core Elementos del conjunto de metadatas de

Dublin Core Descripcioacuten de Referencia httpwwwredirisesmetadata

SAN SEGUNDO MANUEL Rosa (1998) Organizacioacuten del conocimiento en Internet

Metadatos bibliotecarios Dublin Core En VI JORNADAS Espantildeolas de Documentacioacuten

Valencia 1998 --Valencia FESABID 1998 P805-817httpfesabid98florida-

uniesComunicacionesr_sansegundohtm

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 45: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

45

27 Caso praacutectico Plan de posicionamiento web

PRESENTACIOacuteN

El departamento de informaacutetica de una Administracioacuten local debe realizar un

informe sobre las posibilidades de posicionamiento web del sitio web corporativo

Tu eres el documentalista de la Administracioacuten local y se te encarga la redaccioacuten de

dicho informe que se habraacute de presentar al Pleno de la Administracioacuten Local como

respuesta a una consulta del Pleno anterior sobre coacutemo realizar el proceso de

identificacioacuten publicacioacuten y posicionamiento del sitio web de la administracioacuten local

XYZ

El informe consta de tres apartados

Creacioacuten de los metadata-metatags de nuestra administracioacuten local seguacuten

las directrices de Dubliacuten Core ndash Government Application Profile y The e-

Government Metadata Framework (e-GMF)

Seleccioacuten y justificacioacuten de la opcioacuten que vamos a adoptar para el alta en

buscadores y el posterior posicionamiento web

Creacioacuten de una estrategia de posicionamiento web para mejorar las

relaciones econoacutemicas entre nuestra administracioacuten local y otras

administraciones locales de los paiacuteses de cola de la UE (Irlanda Grecia y

Portugal)

OBJETIVOS

Conocer la importancia de la estructuracioacuten interna de la informacioacuten en

paacuteginas HTML

Conocer coacutemo funcionan los metadata-metatags y sus principales

aplicaciones

Conocer la importancia de la organizacioacuten de los recursos de informacioacuten

para su correcta difusioacuten y recuperacioacuten

Conocer la metodologiacutea para el alta en buscadores

Conocer las bases del posicionamiento web

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 46: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

46

ENUNCIADO

Uno de los aspectos maacutes importantes a la hora de publicar en la web consiste en

asegurarse de que los usuarios encontraraacuten los recursos de informacioacuten Para ello

vamos a seguir los siguientes pasos

Creacioacuten de Metadata-Metatags

Alta en Buscadores

Posicionamiento web

1 Creacioacuten de Metadatos

Los metadatos o metatag tienen dos usos principales

Facilitar y mejorar el alta en buscadores Un sitio web identificado adecuadamente

con metadata es maacutes accesible a traveacutes de las diferentes opciones de buacutesqueda

disponibles en la web

Favorecer los procesos administrativos y teacutecnicos Por ejemplo podemos controlar

la memoria cacheacute aseguraacutendonos de que el usuario siempre ve la ultima versioacuten de

la pagina HTML con la siguiente etiqueta ltmeta http-equiv=rdquopragmardquo content=rdquono

cacherdquogt

Los metadata se desarrollan en el encabezamiento de una pagina HTML dentro de

la etiqueta ltHEADgt Metadata ltHEADgt

Debemos tener en cuenta que cualquier organizacioacuten puede utilizar las etiquetas

del Dublin Core pero al tratarse de un organismo puacuteblico estaacute sometido a nuevos

procedimientos y directrices relacionados con la implementacioacuten de la

Administracioacuten electroacutenica o e-Government deberiacuteamos usar una adaptacioacuten de

Dubliacuten Core denominada ldquoGovernment Application Profilerdquo

httpdublincoreorgdocuments20010917gov-application-profile

Ejemplo

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 47: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

47

lthtmlgt

ltheadgt

lttitlegtDepartment X Home Pagelttitlegt

ltmeta name=DCIdentifier scheme=URI

content=httpwwwdepartmentxgovukgt

ltmeta name=DCCreator lang=en content=Mr AN Othergt

ltmeta name=DCPublisher lang=en content=Department X Mediagt

ltmeta name=DCRights lang=en content=Copyright Department Xgt

ltmeta name=DCTitle lang=en content=Department X Home Pagegt

ltmeta name=DCSubject lang=en content=UK Public Sector UK online Tax

Health Defence Civil Servicegt

ltmeta name=DCDescription lang=en content=Department X is a UK public

sector body with wide ranging powers covering Health Tax and Defencegt

ltmeta name=DClanguage scheme=RFC1766 content=engt

ltmeta name=DCDatecreated scheme=ISO8601 content=2000-08-15gt

ltmeta name=DCTypecategory lang=en content=documentgt

ltmeta name=DCFormat scheme=IMT content=texthtmlgt

ltmeta name=keywords content==UK Public Sector UK online Tax Health

Defence Civil Servicegt

ltmeta name=description content= Department X is a UK public sector body with

wide ranging powers covering Health Tax and Defencegt

ltheadgt

2 Alta en Buscadores

El proceso de alta en buscadores consiste en remitir un conjunto de datos de

nuestro sitio web a un gran nuacutemero de motores de buacutesqueda para que sean objeto

de indizacioacuten y posteriormente los usuarios puedan recuperar nuestro sitio web en

una buacutesqueda

Existen tres metodologiacuteas para llevar a cabo el alta en buscadores (con sus

ventajas e inconvenientes)

La organizacioacuten lleva a cabo el proceso de alta en buscadores de forma interna con

los recursos y el personal de que dispone

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 48: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

48

La organizacioacuten contrata un servicio externo geneacuterico (una empresa que ofrece

servicios TI un proveedor de internet generalmente) [Ejemplo

httpwwwarsysesproductosmonline seccioacuten alta en buscadores]

La organizacioacuten contrata un servicio externo especializado en registro y alta en

buscadores [Ejemplo httpwwwaltaenbuscadorescom ]

3 Posicionamiento web

Un plan de posicionamiento permite planificar en queacute situacioacuten de los resultados de

un motor de buacutesqueda queremos estar

Para ello hay que

31 Seleccionar los motores de buacutesqueda en los que queremos aparecer en una

situacioacuten privilegiada Ej Google y Lycos

Es conveniente utilizar estadiacutesticas de Internet para conocer cuaacuteles son los

ldquobuscadoresrdquo maacutes utilizados en cada paiacutes cada sector de actividad etc

Algunos recursos uacutetiles son

httpwwwsearchenginewatchcom

httpwwwnuaiesurveys

httpwwwnielsen-netratingscom

32 Seleccionar las palabras clave para las que queremos obtener una posicioacuten

determinada

Para hacer un estudio detallado de cuaacuteles son las palabras clave maacutes adecuadas

para describir un recurso web asiacute como estimar cuaacuteles son las palabras clave maacutes

representativas en un aacutembito de conocimiento web especiacutefico podemos usar

algunas de las siguientes herramientas

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 49: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

49

Keyword Report

httpwwwwordtrackercom

33 Determinar nuestro objetivo de posicionamiento web y enunciar una

estrategia

Objetivo Aumentar el turismo proveniente de Inglaterra Alemania y Francia en

nuestra aacuterea (la de la administracioacuten local que estamos tratando)

Estrategia Estar entre el puesto 1 y el 5 en los dos buscadores principales de

Inglaterra Alemania y Francia para las palabras clave ldquoEspantildeardquo y ldquovacacionesrdquo en

ingleacutes alemaacuten y franceacutes (Ejemplo ldquospainrdquo ldquoholidaysrdquo)

34 Contratar un servicio que nos permita cumplir nuestros objetivo de

posicionamiento

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 50: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

50

3 Los agentes inteligentes de informacioacuten

31 Concepto de agente inteligente

El concepto de agente inteligente es tan amplio y posee tantas aplicaciones que no

es sencillo aportar una definicioacuten exacta Bradshaw sentildeala que la definicioacuten de

agente depende del punto de vista del investigador o de los atributos propios del

agente En la misma liacutenea Nwana afirma que el concepto de agente ya se puede

encontrar en la investigacioacuten en Inteligencia Artificial de la deacutecada de los 70s pero

que continuacutea siendo un teacutermino difuso un meta-teacutermino o paraguas que da

cobertura a diferentes enfoques Finalmente Tramullas comenta que la

complejidad que rodea al aacutembito de los agentes donde intervienen la Inteligencia

Artificial la Sociologiacutea la Loacutegica las Telecomunicaciones y otras disciplinas hace

necesario el estudio de las situaciones en las que puede encontrarse un agente para

definirlo de forma adecuada

Stenmark ofrece una definicioacuten geneacuterica un agente inteligente es un software que

asiste al cliente y actuacutea en su nombre

Hipola y Vargas-Quesada lo definen como una entidad software que basaacutendose en

su propio conocimiento realiza un conjunto de operaciones destinadas a satisfacer

las necesidades de un usuario o de otro programa bien por iniciativa propia o

porque alguno de eacutestos se lo requiere

Una definicioacuten bastante apropiada seriacutea la que define agente inteligente como

programas de ordenador capaces de efectuar una tarea o actividad sin la

manipulacioacuten directa de un usuario humano Los agentes inteligentes han cambiado

sustancialmente la forma de interaccioacuten hombre-maacutequina El usuario delega

diferentes tareas a los agentes que son capaces de actuar en su nombre Ademaacutes

los agentes tienen la caracteriacutestica esencial de aprender de diferentes formas

Observando e imitando el comportamiento del usuario

Recibiendo un feedback positivo o negativo del usuario

Recibiendo instrucciones expliacutecitas del usuario

Pidiendo consejo a otros agentes

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 51: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

51

Desde el punto de vista de la gestioacuten y recuperacioacuten de la informacioacuten una

definicioacuten de agente seriacutea una entidad software que recoge filtra y procesa

informacioacuten contenida en la Web realiza inferencias sobre dicha informacioacuten e

interactuacutea con el entorno sin necesidad de supervisioacuten o control constante por parte

del usuario Estas tareas son realizadas en representacioacuten del usuario o de otro

agente

32 Caracteriacutesticas de los agentes

Las caracteriacutesticas que un programa debe poseer para ser considerado un agente

inteligente en opinioacuten de los expertos son

Autonomiacutea el agente debe tener control sobre sus propias acciones y ser

capaz de lanzar acciones independientemente del usuario

Capacidad de reaccioacuten los agentes pueden detectar cambios en su entorno y

reaccionar en funcioacuten de eacutestos

Comunicatividad el agente es capaz de interactuar con los usuarios y otros

agentes

Consecucioacuten de metas los agentes tienen un propoacutesito determinado y actuacutean

en consecuencia hasta conseguirlo

Otras caracteriacutesticas de los agentes inteligentes resentildeadas en la mayoriacutea de la

literatura en este aacutembito son dinamismo (los agentes deberiacutean ser capaces de

funcionar independientemente del espacio y el tiempo) adaptabilidad (los agentes

aprenden y cambian su conducta basaacutendose en las experiencias previas)

continuidad temporal (los agentes no deberiacutean parar o reanudar su actividad para

ciertas tareas maacutes bien su funcionamiento deberiacutea ser un proceso continuo) y

movilidad (los agentes se pueden transportar de una maacutequina a otra e incluso

entre diferentes arquitecturas y plataformas)

33 Aplicaciones de los agentes

Existen muchos maacutes ejemplos donde podriacuteamos encontrarnos sistemas o aacutereas de

aplicacioacuten donde la orientacioacuten basada en agentes resulta especialmente

prometedora ofreciendo nuevas perspectivas y posibilidades Numerosas

aplicaciones basadas en este nuevo paradigma vienen ya siendo empleadas en

infinidad de aacutereas Podemos destacar dos aacutereas como seriacutean las aplicaciones

industriales y las comerciales

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 52: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

52

Dentro del marco de las aplicaciones industriales la tecnologiacutea basada en

agentes es considerada muy apropiada para el desarrollo de sistemas industriales

distribuidos Dentro de esta liacutenea podriacuteamos destacar aquellas aplicaciones

que se encargan de

middot Control de procesos gestioacuten autoacutenoma de edificios inteligentes en cuanto a su

seguridad y consumo de recursos gestioacuten del transporte de electricidad (ARCHON)

control de un acelerador de partiacuteculas monitorizacioacuten y diagnoacutestico de fallos en

plantas industriales como por ejemplo nucleares o refineriacuteas control en el proceso

de bobinado del acero y roboacutetica En otro tipo de aacuterea se han desarrollado

aplicaciones para el control del traacutefico aeacutereo en aeropuertos como el de Sidney en

Australia

middot Produccioacuten aspectos como la planificacioacuten y scheduling de la produccioacuten o

fabricacioacuten de productos seriacutean tratados desde la perspectiva de agencia Se ha

aplicado con eacutexito por ejemplo a sistemas encargados de las fases de ensamblaje

pintado almacenamiento de productos etc Algunos ejemplos seriacutean AARIA

ABACUS CORTES MASCOT Sensible Agents YAMS etc

middot Por otro lado tambieacuten estaacute siendo empleado en aplicaciones comerciales

sobre todo a nivel de aplicaciones de red tanto en Internet como en redes

corporativas podemos distinguir entre

middot Gestioacuten de informacioacuten como por ejemplo el filtrado inteligente de correo

electroacutenico (Agentware e InfoMagnet) de grupos de noticias o la recopilacioacuten

automaacutetica de informacioacuten disponible en la red (Letizia AT1 BullsEye Go-Get-It

Got-It Surfbot y WebCompass) Tareas para las cuales el agente necesita ser

capaz de almacenar aprender y manipular las preferencias y gustos de cada

usuario asiacute como sus cambios La imposibilidad en ocasiones de gestionar todo tipo

de informacioacuten suministrada por la red ha provocado que el agente se especialice

en la buacutesqueda de determinados tipos de documentos (CiteSeer) Otra posible liacutenea

seriacutea la planificacioacuten de la agenda personal en otras palabras disponer de una

secretariacutea virtual o asistente personal

middot Comercio electroacutenico en este caso la tecnologiacutea se emplea para proporcionar el

entorno virtual donde realizar posibles operaciones comerciales (compra-venta de

productos) o tambieacuten para realizar tareas de buacutesqueda de productos (comparando

precios consultando disponibilidad) todo ello de manera automatizada (Jango

BargainFinder Kasbah) En este caso el agente debe poder comunicarse con las

tiendas en liacutenea utilizando protocolos que permitan trabajar con las interfaces de

estas tiendas actualmente los usuarios pueden comprar y vender artiacuteculos

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 53: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

53

comunes como libros y CDrsquos de muacutesica El empleo de agentes aumentaraacute el impacto

del comercio electroacutenico en un futuro muy cercano revelando asimismo coacutemo los

agentes basados en la web pueden proporcionar un enorme poder antildeadido a los

consumidores

middot Monitorizacioacuten proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada (WBI de IBM BullsEye y Smart

Bookmarks) Este tipo de agentes permite tener alerta a un usuario frente a

eventos en la red interesantes para el mismo La forma en que este tipo de agentes

sirve la informacioacuten a su usuario puede ser el indicar uacutenicamente queacute paacutegina o

paacuteginas han cambiado y desde cuando ha sucedido esto o llegar a bajarse el texto

de las paacuteginas actualizadas filtrando en este caso imaacutegenes graacuteficos y demaacutes

middot Mediador de diferentes fuentes de informacioacuten se estaacuten realizando

esfuerzos en la liacutenea de desarrollar agentes que permitan interoperar a diferentes

fuentes de informacioacuten independientemente del sistema en que se hayan

desarrollado

34 Clasificacioacuten de los agentes inteligentes

Como consecuencia de una definicioacuten diaacutefana de agente inteligente diferentes

autores han propuesto una gran variedad de taxonomiacuteas o clasificaciones A

continuacioacuten se presenta una doble clasificacioacuten que pretende aclarar la tipologiacutea

de agentes inteligentes basaacutendonos tanto en el aacutembito en el que actuacutean como en

las tareas que llevan a cabo para finalmente demarcar nuestro aacutembito de

actuacioacuten en los agentes de Internet que realizan tareas de recuperacioacuten de

informacioacuten

En cuanto a su aacutembito de actuacioacuten

Agentes de escritorio (agentes de sitema operativo agentes de aplicaciones

etc)

Agentes de Internet (agentes de buacutesqueda filtrado recuperacioacuten de

informacioacuten agentes de notificacioacuten agentes moacuteviles etc)

Agentes de Intranet (agentes de customizacioacuten cooperativa agentes de bases

de datos agentes de automatizacioacuten de procesos etc)

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 54: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

54

En cuanto a su funcioacuten

Stenmark clasifica los agentes en las siguientes tipologiacuteas Interface agents

System agents Advisory agents Filtering agents Retrieval agents Navigation

agents Monitoring agents Recommender agents Profiling agents y otros que estaacuten

surgiendo continuamente

En el aacutembito de la gestioacuten eficiente del conocimiento podemos destacar tres tipos

1 Filtering agents agentes que se usan para reducir la sobreabundancia de

informacioacuten mediante el borrado de los datos no deseados (por ejemplo los

datos que no satisfacen completamente el perfil de usuario) Muchos clientes de

e-mail asiacute como los productos Agentware e InfoMagnet proporcionan

prestaciones baacutesicas de filtering agents

2 Retrieval agents agentes que buscan recuperan y proporcionan la

informacioacuten como si fueran auteacutenticos gestores de informacioacuten y documentacioacuten

(ldquoinformation brokersrdquo) Muchos productos se autoproclaman como retrieval

agents tanto aplicaciones cliente AT1 BullsEye Go-Get-It Got-It Surfbot y

WebCompass como aplicaciones servidor Agentware e InfoMagnet

3 Monitoring agents proporcionan al usuario la informacioacuten cuando sucede un

determinado acontecimiento por ejemplo cuando la informacioacuten ha sido

actualizada trasladada de lugar o borrada Algunos productos ejemplo son WBI

de IBM BullsEye y SmartBookmarks

En nuestro caso nos interesan los denominados ldquoretrieval agentsrdquo esto es agentes

para la recuperacioacuten de informacioacuten Otros autores denominan a este tipo de

software como agentes de informacioacuten Al fin y al cabo su funcioacuten no se basa en la

mera recuperacioacuten de informacioacuten sino que disponen de un conjunto de utilidades

conexas que nos permitiriacutean denominarlos agentes para gestioacuten del conocimiento

35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten

El papel del agente inteligente en el proceso de recuperacioacuten ldquosemaacutenticardquo de

informacioacuten no debe confundirse con la de un buscador inteligente Un buscador

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 55: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

55

inteligente se aprovecharaacute del enriquecimiento semaacutentico de los recursos web para

mejorar (principalmente en la precisioacuten) la recuperacioacuten de informacioacuten aunque su

funcionamiento se basaraacute como los actuales buscadores en la previa indizacioacuten de

todos aquellos recursos susceptibles de ser recuperados

En cambio un agente inteligente recorreraacute la Web a traveacutes de los enlaces entre

recursos (hiperdocumentos ontologiacuteas ) en busca de aquella informacioacuten que le

sea solicitada pudiendo ademaacutes interactuar con el entorno para el cumplimiento de

tareas encomendadas Por ejemplo un agente inteligente ante una consulta dada

podriacutea consultar autoacutenomamente un buscador y a partir de sus resultados

explorar la Web hasta encontrar la informacioacuten solicitada pudiendo finalmente

llevar a cabo una accioacuten sobre dicho recurso como podriacutea ser la reserva de una

habitacioacuten en un hotel

36 Bibliografiacutea

Adam N Y Yesha Y (1996) Electronic Commerce and Digital Libraries towards

a digital agora ACM Computing Survey vol 4 nordm 28 diciembre de 1996

Aguillo I F (1999) Del multibuscador al metabuscador las agentes trazadores

de Internet En Congreso ISKO (IV Granada 1999) La representacioacuten y la

organizacioacuten del conocimiento en sus distintas perspectivas su influencia en la

recuperacioacuten de informacioacuten Granada Isko Universidad de Granada 1999

p239-245

Alonso Berrocal JL Figuerola CG Y Zazo Rodriacuteguez AF (1999)

Representacioacuten de paacuteginas web a traveacutes de sus enlaces y su aplicacioacuten a la

recuperacioacuten de informacioacuten IV Encuentros Internacionales sobre Sistemas de

Informacioacuten y Documentacioacuten IBERSID 99 Zaragoza 15-18 de Marzo de 1999

Brashaw J (1997) An introduction to software agents En Brashaw J Software

agents AAAI Press 1997 p 4-7

Caglayan A Harrison C (1997) Agent Sourcebook New York etc Jonh Wiley

amp Sons 1997

Chaves A et al (1997) A Real-Life Experiment in creating an agent

marketplace En Proceeding of PAAMrsquo97 Practical Applications Company 1997

Codina L (1997) Coacutemo funcionan los servicios de buacutesqueda en Internet un

informe especial para navegantes y creadores de informacioacuten Part I

Information World en Espantildeol vol 6 nordm 5 1997 p 22-26

Eriksson J Finne N Y Janson S (1999) To each and everyone an agent

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 56: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

56

augmenting web-based commerce with agents Intelligent Systems Laboratory

Final Report 1999

Giles CL Bollacker KD Lawrence S (1998) Citeseer an autonomus web

agent for automatic retrieval and identification of interesting publications In

2nd International ACM Conference on Autonomus Agents ACM Press May 1998

Hiacutepola P Vargas-Quesada B (1999) Agentes inteligentes definicioacuten u

tipologiacutea Los agentes de informacioacuten El profesional de la informacioacuten vol 8 nordm

4 abril de 1999 p 13-21

Klusch M (Ed) (1999) Intelligent information agents agent-based information

discovery and management on the Internet Berlin Springer 1999

Leloup C (1998) Motores de buacutesqueda e indexacioacuten entornos cliente servidor

Internet e Intranet Barcelona Gestioacuten 2000 1998

Maes P (1994) Agents that reduce work and information overload

Communications of the ACM vol 7 nordm 37 1994 p 31-44 Disponible en

httppattiewwwmediamitedupeoplepattie

Maldonado Martiacutenez A Fernaacutendez Saacutenchez E (1998) Evaluacioacuten de los

principales ldquobuscadoresrdquo desde un punto de vista documental recogida anaacutelisis

y recuperacioacuten de recursos de informacioacuten Actas VI Jornadas Espantildeolas de

Documentacioacuten 1998 p 529-551

Matthew C (1998) Bridging intranet profit and value Datamation

diciembreenero 1998 p 120-124

Nwana J (1996) Software agents an overview Knowledge Engineering Review

11(3) 1996 p 205-244

Peis E Herrera-ViedmaE Hassan Y and Herrera JC (2003) Ontologiacuteas

taxonomiacuteas y agentes recuperacioacuten semaacutentica de la informacioacuten JOTRI 2003

II Jornadas de Tratamiento y Recuperacioacuten de Informacioacuten 8 y 9 de septiembre

de 2003

Snyder H Rosenbaum H (1999) Can search engines be used as tools for web-

link analysis A critical review Journal of Documentation vol 55 nordm 4 1999 p

375-384

Stenmark D (1998) Intelligent Software Agents a attempt to do a

classification 1998 httpw3informatikguse~dixiagentagenthtm

Tramullas J (1999) Agentes y ontologiacuteas para el tratamiento de la informacioacuten

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 57: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

57

clasificacioacuten y recuperacioacuten en Internet En Congreso ISKO (IV Granada

1999) La representacioacuten y la organizacioacuten del conocimiento en sus distintas

perspectivas su influencia en la recuperacioacuten de informacioacuten Granada Isko

Universidad de Granada 1999 p 247-248

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 58: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

58

37 Caso praacutectico Comparacioacuten Google versus Copernic

PRESENTACIOacuteN

Ante una necesidad de informacioacuten el usuario establece queacute fuentes de informacioacuten

van a ser consultadas para solucionar esta determinada necesidad

Mayoritariamente las fuentes de informacioacuten seraacuten los motores de buacutesqueda y los

agentes inteligentes para la recuperacioacuten de informacioacuten

Para orientarnos sobre queacute herramienta es maacutes uacutetil para satisfacer una necesidad

de informacioacuten debemos tener en cuenta el conjunto de prestaciones que un

software de recuperacioacuten de recursos web puede ofrecer En esta actividad se

presenta una tabla de comparacioacuten que puede ayudar a determinar las prestaciones

baacutesicas de una software de buacutesqueda y recuperacioacuten de recursos web

OBJETIVOS

Conocer en profundidad las funcionalidades de Google y Copernic

Establecer una serie de criterios objetivos de comparacioacuten de motores de

buacutesqueda y agentes inteligentes

ENUNCIADO

Atendiendo a la siguiente lista de valoracioacuten para recuperar informacioacuten en Internet

comparar el motor de buacutesqueda Google y el agente Copernic (versioacuten avanzada) a

partir de vuestra experiencia en la realizacioacuten de estrategias de buacutesqueda y

aprendizaje de su funcionamiento

Ademaacutes el estudiante debe realizar en una extensioacuten de una paacutegina (verdana 12)

un anaacutelisis criacutetico de los resultados obtenidos en la comparacioacuten de estas

herramientas de buacutesqueda

Para cumplimentar las columnas de Google y Copernic debeacuteis rellenar con un 1 si

la herramienta cumple esa prestacioacuten y con un 0 si no lo cumple y con una X si no

se dispone de informacioacuten suficiente Al final tendremos una suma total de

prestaciones que nos informaraacute sobre el nivel de sofisticacioacuten de cada una de las

herramientas

FORMATO

El especificado en la tabla anexa

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 59: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

59

Tabla para la comparacioacuten

Google Copernic

Buacutesqueda simpleavanzada

Buacutesqueda booleana

Truncamiento

PERSONALIZACION Lenguaje natural

Filtros

Meacutetodos de ordenacioacuten

Buacutesquedas por campos

Configuracioacuten de presentacioacuten

RatingOrdenacioacuten

CALIDAD RESULTADOS Exhaustividad

Precisioacuten

User friendlinessFacilidad de uso

Limpieza de la pantalla

USABILIDAD Respuesta miacutenima (en espacio)

Ayudas al usuario

Inclusioacuten de la url

Informacioacuten antildeadida

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 60: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

60

RENDIMIENTO Tiempo de respuesta

Periodicidad indexacioacuten

Conceptos antildeadidos

Paacuteginas similares

FUNCIONES ANtildeADIDAS Enlaces patrocinados

Productos relacionados

Retroalimentacioacutenrefinado

TOTAL

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic
Page 61: agentes inteligentes busq y recu infor

Agentes inteligentes en la buacutesqueda y recuperacioacuten de informacioacuten

copy Pablo Lara Navarra Joseacute Aacutengel Martiacutenez Usero copy Planeta UOC SL

ISBN 84-9707-571-4

61

37 Caso praacutectico Vigilancia tecnoloacutegica con agentes

PRESENTACIOacuteN

Un conjunto de empresas y centros de investigacioacuten europeos estaacuten preparando un

proyecto de investigacioacuten con el objetivo de solicitar financiacioacuten del VI Programa

Marco de I+D El proyecto de investigacioacuten consiste en el desarrollo de nuevos

materiales de plaacutestico para envases y embalajes para su uso en horno y

microondas

El Departamento de Documentacioacuten del Instituto Tecnoloacutegico del Envase y

Embalaje debe establecer un servicio de vigilancia tecnoloacutegica durante el periodo

que dure la preparacioacuten del proyecto

OBJETIVOS

Conocer los principales recursos para realizar una vigilancia del conocimiento

tecnoloacutegico

Descubrir la utilidad de los agentes inteligentes como herramienta para la

vigilancia del entorno y la gestioacuten del conocimiento

Desarrollar un sistema de vigilancia tecnoloacutegica ad hoc

ENUNCIADO

Se trata de generar un informe en formato electroacutenico con los recursos web

existentes sobre un tema muy especializado para ello se utilizaraacute un agente

inteligente para la recuperacioacuten y monitorizacioacuten de la informacioacuten

Utilizar el agente inteligente Copernic [versioacuten permanente en espantildeol]

httpwwwcoperniccomenproductsagentdownloadhtml

Con el informe creado en htmlxml hay que grabarlo como ldquoinformehtmlxmlrdquo y

pergarlo en un documento word

Para tener conocimiento de los sistemas de vigilancia de estrategias de buacutesqueda y

monitorizacioacuten de sitios web hay que testear el sitio web

httpwwwcdetrackercom y suscribirse a uno o maacutes canales

  • Introduccioacuten
  • 1 Los motores de buacutesqueda y la recuperacioacuten de la informacioacuten
    • 11 El lenguaje de interrogacioacuten
      • 111 Operadores loacutegicos o booleanos
      • 112 Operadores posicionales
        • 1121 Operadores posicionales relativos
        • 1122 Operadores posicionales absolutos
          • 113 Operadores de truncamiento y de liacutemitecomparacioacuten
            • 12 Las herramientas de recuperacioacuten de informacioacuten web
              • 121 Tipos de herramientas de buacutesqueda y recuperacioacuten
                • 1211 Los directorios o iacutendices temaacuteticos
                • 1212 Los motores de buacutesqueda
                • 1213 Los agentes inteligentes
                  • 122 Funcionamiento de los motores de buacutesqueda
                  • 123 Los metabuscadores
                  • 124 Tendencia actual de los motores de buacutesqueda
                    • 13 La Infranet o Internet invisible
                      • 131 Los recursos de la Internet invisible
                      • 132 La recuperacioacuten de la informacioacuten en la Internet invisible
                        • 14 Bibliografiacutea
                        • 15 Casos praacutecticos
                          • 151 Caso praacutectico 1 Evaluacioacuten de motores de buacutesqueda
                            • MOTORES
                              • 152 Caso praacutectico 2 Seleccioacuten de un motor de buacutesqueda
                                • 16 Anexo Introduccioacuten a Google
                                  • 2 El posicionamiento en los motores de buacutesqueda
                                    • 21 Concepto de posicionamiento web
                                    • 22 Criterios baacutesicos para el posicionamiento
                                      • 221 Criterios de optimizacioacuten internos a la paacutegina web
                                      • 222 Criterios de optimizacioacuten externos a la paacutegina web
                                        • 23 Los metadatos y el posicionamiento web
                                          • 231 Concepto de metadatos
                                          • 232 La funcioacuten de los metadatos en la recuperacioacuten de informacioacuten
                                            • 2321 La iniciativa Dublin Core
                                            • 2322 Los elementos Dublin Core
                                                • 24 La optimizacioacuten de las palabras clave
                                                • 25 La planificacioacuten de un proyecto de posicionamiento
                                                  • 251 Plan de posicionamiento
                                                  • 252 Alta en los principales buscadores
                                                  • 253 Enlaces patrocinados
                                                  • 254 Servicios de consultoriacutea
                                                    • 26 Bibliografiacutea
                                                    • 27 Caso praacutectico Plan de posicionamiento web
                                                      • 3 Los agentes inteligentes de informacioacuten
                                                        • 31 Concepto de agente inteligente
                                                        • 32 Caracteriacutesticas de los agentes
                                                        • 33 Aplicaciones de los agentes
                                                        • 34 Clasificacioacuten de los agentes inteligentes
                                                        • 35 Los agentes de recuperacioacuten semaacutentica de la informacioacuten
                                                        • 36 Bibliografiacutea
                                                        • 37 Caso praacutectico Comparacioacuten Google versus Copernic