Estrategias Busqueda Web Profunda

Embed Size (px)

Citation preview

  • 8/8/2019 Estrategias Busqueda Web Profunda

    1/21

    Estrategias y mecanismos de bsqueda en la web invisible

    Estrategias y mecanismos de bsqueda en la web invisible

    Pilar Mara Moreno Jimnez

    Mayo, 2003. ltima actualizacin: mayo, 2005.

    Resumen

    e denomina web invisible o profunda a la informacin que no puede recuperarse con los mecanismos

    e bsqueda comunes. Estos mecanismos tratan de abarcar toda la web, pero se calcula que los

    mayores motores de bsqueda alcanzan a indizar slo entre un tercio y la mitad de los documentos

    isponibles. La web invisible no slo es de mayor tamao que la web visible o superficial sino que

    rece a mayor velocidad. Asimismo, mucha informacin disponible en la web profunda, como la que se

    ncuentra en bases de datos, tiene un alto valor potencial para el usuario.La multiplicidad de mecanismos de rastreo, indizacin, recuperacin y organizacin de documentos en

    a web puede causar confusin al usuario comn. Adems, el nmero de motores de bsqueda, as

    omo los hbridos resultado de la combinacin de diferentes mecanismos, ha aumentado. Esto hace

    ecesario clasificar y diferenciar los tipos de herramientas disponibles.

    En este documento recomiendo algunas estrategias tiles para la bsqueda en la web y presento una

    ompilacin de recursos de bsqueda en la web invisible o profunda.

    Tabla de contenido

    ntroduccin

    . Mecanismos de bsqueda en la web

    q Buscadoresq Metabuscadoresq Directoriosq Guasq Tutorialesq Software especializado

    . Estrategias de bsqueda en la web

    q Estrategias generalesq Seleccin de herramientas

    q Objetivo de la bsquedaq Forma de bsquedaq Especializacin de la bsqueda

    file:///C|/Documents%20and%20Settings/edudist/Es...%20de%20bsqueda%20en%20la%20web%20invisible.htm (1 de 21)04/12/2006 01:53:57 p.m.

    mailto:[email protected]://biblio.colmex.mx/recelec/web_invisible.htm#Introducci%E3%AE%80http://biblio.colmex.mx/recelec/web_invisible.htm#1.%20Mecanismos%20de%20B%EA%B3%B1ueda%20en%20la%20webhttp://biblio.colmex.mx/recelec/web_invisible.htm#Buscadoreshttp://biblio.colmex.mx/recelec/web_invisible.htm#Metabuscadoreshttp://biblio.colmex.mx/recelec/web_invisible.htm#Directorioshttp://biblio.colmex.mx/recelec/web_invisible.htm#Gu%EF%BF%BDhttp://biblio.colmex.mx/recelec/web_invisible.htm#Tutorialeshttp://biblio.colmex.mx/recelec/web_invisible.htm#Software%20especializadohttp://biblio.colmex.mx/recelec/web_invisible.htm#2.%20Estrategias%20de%20b%EA%B3%B1ueda%20en%20la%20webhttp://biblio.colmex.mx/recelec/web_invisible.htm#Estrategias%20generaleshttp://biblio.colmex.mx/recelec/web_invisible.htm#Selecci%E3%AE%A0de%20herramientashttp://biblio.colmex.mx/recelec/web_invisible.htm#Objetivo%20de%20la%20b%EA%B3%B1uedahttp://biblio.colmex.mx/recelec/web_invisible.htm#Forma%20de%20b%EA%B3%B1uedahttp://biblio.colmex.mx/recelec/web_invisible.htm#Especializaci%E3%AE%A0de%20la%20b%EA%B3%B1uedahttp://biblio.colmex.mx/recelec/web_invisible.htm#Especializaci%E3%AE%A0de%20la%20b%EA%B3%B1uedahttp://biblio.colmex.mx/recelec/web_invisible.htm#Forma%20de%20b%EA%B3%B1uedahttp://biblio.colmex.mx/recelec/web_invisible.htm#Objetivo%20de%20la%20b%EA%B3%B1uedahttp://biblio.colmex.mx/recelec/web_invisible.htm#Selecci%E3%AE%A0de%20herramientashttp://biblio.colmex.mx/recelec/web_invisible.htm#Estrategias%20generaleshttp://biblio.colmex.mx/recelec/web_invisible.htm#2.%20Estrategias%20de%20b%EA%B3%B1ueda%20en%20la%20webhttp://biblio.colmex.mx/recelec/web_invisible.htm#Software%20especializadohttp://biblio.colmex.mx/recelec/web_invisible.htm#Tutorialeshttp://biblio.colmex.mx/recelec/web_invisible.htm#Gu%EF%BF%BDhttp://biblio.colmex.mx/recelec/web_invisible.htm#Directorioshttp://biblio.colmex.mx/recelec/web_invisible.htm#Metabuscadoreshttp://biblio.colmex.mx/recelec/web_invisible.htm#Buscadoreshttp://biblio.colmex.mx/recelec/web_invisible.htm#1.%20Mecanismos%20de%20B%EA%B3%B1ueda%20en%20la%20webhttp://biblio.colmex.mx/recelec/web_invisible.htm#Introducci%E3%AE%80mailto:[email protected]
  • 8/8/2019 Estrategias Busqueda Web Profunda

    2/21

    Estrategias y mecanismos de bsqueda en la web invisible

    q Precisin de la bsquedaq Mucha informacin recuperadaq Seleccin de recursosq Poca informacin recuperada

    . Caracterizacin de la web invisible o profunda

    q La web opacaq La web privadaq La web propietariaq La web realmente invisible

    . Herramientas de bsqueda en la web profunda

    q Buscadores

    q Metabuscadoresq Directoriosq Guasq Tutorialesq Motores avanzados

    . Estrategias de bsqueda en la web profunda

    q Informacin especializadaq Bsquedas avanzadasq Evaluacin de la informacinq Informacin en bases de datos

    6. Compilacin de recursos de bsqueda en la web profunda

    q Recursos de bsqueda ordenados alfabticamenteq Recursos de bsqueda ordenados por tipo de recurso

    7. Qu tan invisible es hoy la web invisible?

    q La web opacaq La web privadaq La web propietariaq La web realmente invisible

    8. Bibliografa

    ntroduccinEl trmino web invisible fue utilizado por primera vez por la Dra. Jill Ellsworth paradenominar la informacin que resultaba invisible para las maquinarias de bsqueda

    file:///C|/Documents%20and%20Settings/edudist/Es...%20de%20bsqueda%20en%20la%20web%20invisible.htm (2 de 21)04/12/2006 01:53:57 p.m.

    http://biblio.colmex.mx/recelec/web_invisible.htm#Precisi%E3%AE%A0de%20la%20b%EA%B3%B1uedahttp://biblio.colmex.mx/recelec/web_invisible.htm#Mucha%20informaci%E3%AE%A0recuperadahttp://biblio.colmex.mx/recelec/web_invisible.htm#Selecci%E3%AE%A0de%20recursoshttp://biblio.colmex.mx/recelec/web_invisible.htm#Poca%20informaci%E3%AE%A0recuperadahttp://biblio.colmex.mx/recelec/web_invisible.htm#3.%20Caracterizaci%E3%AE%A0de%20la%20web%20invisible%20o%20profundahttp://biblio.colmex.mx/recelec/web_invisible.htm#web%20opacahttp://biblio.colmex.mx/recelec/web_invisible.htm#web%20privadahttp://biblio.colmex.mx/recelec/web_invisible.htm#web%20propietariahttp://biblio.colmex.mx/recelec/web_invisible.htm#web%20realmente%20invisiblehttp://biblio.colmex.mx/recelec/web_invisible.htm#4.%20Herramientas%20de%20b%EA%B3%B1ueda%20en%20la%20web%20profundahttp://biblio.colmex.mx/recelec/web_invisible.htm#Buscadores2http://biblio.colmex.mx/recelec/web_invisible.htm#Metabuscadores2http://biblio.colmex.mx/recelec/web_invisible.htm#Directorios2http://biblio.colmex.mx/recelec/web_invisible.htm#Gu%EF%BF%BD2http://biblio.colmex.mx/recelec/web_invisible.htm#Tutoriales2http://biblio.colmex.mx/recelec/web_invisible.htm#Motores%20avanzados2http://biblio.colmex.mx/recelec/web_invisible.htm#5.%20Estrategias%20de%20b%EA%B3%B1ueda%20en%20la%20web%20profundahttp://biblio.colmex.mx/recelec/web_invisible.htm#Informaci%E3%AE%A0especializadahttp://biblio.colmex.mx/recelec/web_invisible.htm#B%EA%B3%B1uedas%20avanzadashttp://biblio.colmex.mx/recelec/web_invisible.htm#Evaluaci%E3%AE%A0de%20la%20informaci%E3%AE%80http://biblio.colmex.mx/recelec/web_invisible.htm#Informaci%E3%AE%A0en%20bases%20de%20datoshttp://biblio.colmex.mx/recelec/web_invisible.htm#6.%20Compilaci%E3%AE%A0de%20recursos%20de%20b%EA%B3%B1ueda%20en%20la%20web%20profundahttp://biblio.colmex.mx/recelec/web_invisible.htm#Recursos%20ordenados%20alfab%E9%B4%A9camentehttp://biblio.colmex.mx/recelec/web_invisible.htm#Recursos%20ordenados%20por%20tipohttp://biblio.colmex.mx/recelec/web_invisible.htm#7.%20%EF%91%B5%E9%A0%B4an%20invisible%20es%20hoy%20la%20web%20invisible?http://biblio.colmex.mx/recelec/web_invisible.htm#Web%20opaca2http://biblio.colmex.mx/recelec/web_invisible.htm#Web%20privada2http://biblio.colmex.mx/recelec/web_invisible.htm#Web%20propietaria2http://biblio.colmex.mx/recelec/web_invisible.htm#Web%20realmente%20invisible2http://biblio.colmex.mx/recelec/web_invisible.htm#8.%20Bibliograf%EF%BF%BDhttp://biblio.colmex.mx/recelec/web_invisible.htm#8.%20Bibliograf%EF%BF%BDhttp://biblio.colmex.mx/recelec/web_invisible.htm#Web%20realmente%20invisible2http://biblio.colmex.mx/recelec/web_invisible.htm#Web%20realmente%20invisible2http://biblio.colmex.mx/recelec/web_invisible.htm#Web%20propietaria2http://biblio.colmex.mx/recelec/web_invisible.htm#Web%20privada2http://biblio.colmex.mx/recelec/web_invisible.htm#Web%20opaca2http://biblio.colmex.mx/recelec/web_invisible.htm#7.%20%EF%91%B5%E9%A0%B4an%20invisible%20es%20hoy%20la%20web%20invisible?http://biblio.colmex.mx/recelec/web_invisible.htm#Recursos%20ordenados%20por%20tipohttp://biblio.colmex.mx/recelec/web_invisible.htm#Recursos%20ordenados%20alfab%E9%B4%A9camentehttp://biblio.colmex.mx/recelec/web_invisible.htm#6.%20Compilaci%E3%AE%A0de%20recursos%20de%20b%EA%B3%B1ueda%20en%20la%20web%20profundahttp://biblio.colmex.mx/recelec/web_invisible.htm#Informaci%E3%AE%A0en%20bases%20de%20datoshttp://biblio.colmex.mx/recelec/web_invisible.htm#Evaluaci%E3%AE%A0de%20la%20informaci%E3%AE%80http://biblio.colmex.mx/recelec/web_invisible.htm#B%EA%B3%B1uedas%20avanzadashttp://biblio.colmex.mx/recelec/web_invisible.htm#Informaci%E3%AE%A0especializadahttp://biblio.colmex.mx/recelec/web_invisible.htm#5.%20Estrategias%20de%20b%EA%B3%B1ueda%20en%20la%20web%20profundahttp://biblio.colmex.mx/recelec/web_invisible.htm#Motores%20avanzados2http://biblio.colmex.mx/recelec/web_invisible.htm#Tutoriales2http://biblio.colmex.mx/recelec/web_invisible.htm#Gu%EF%BF%BD2http://biblio.colmex.mx/recelec/web_invisible.htm#Directorios2http://biblio.colmex.mx/recelec/web_invisible.htm#Metabuscadores2http://biblio.colmex.mx/recelec/web_invisible.htm#Buscadores2http://biblio.colmex.mx/recelec/web_invisible.htm#4.%20Herramientas%20de%20b%EA%B3%B1ueda%20en%20la%20web%20profundahttp://biblio.colmex.mx/recelec/web_invisible.htm#web%20realmente%20invisiblehttp://biblio.colmex.mx/recelec/web_invisible.htm#web%20realmente%20invisiblehttp://biblio.colmex.mx/recelec/web_invisible.htm#web%20propietariahttp://biblio.colmex.mx/recelec/web_invisible.htm#web%20privadahttp://biblio.colmex.mx/recelec/web_invisible.htm#web%20opacahttp://biblio.colmex.mx/recelec/web_invisible.htm#3.%20Caracterizaci%E3%AE%A0de%20la%20web%20invisible%20o%20profundahttp://biblio.colmex.mx/recelec/web_invisible.htm#Poca%20informaci%E3%AE%A0recuperadahttp://biblio.colmex.mx/recelec/web_invisible.htm#Selecci%E3%AE%A0de%20recursoshttp://biblio.colmex.mx/recelec/web_invisible.htm#Mucha%20informaci%E3%AE%A0recuperadahttp://biblio.colmex.mx/recelec/web_invisible.htm#Precisi%E3%AE%A0de%20la%20b%EA%B3%B1ueda
  • 8/8/2019 Estrategias Busqueda Web Profunda

    3/21

    Estrategias y mecanismos de bsqueda en la web invisible

    onvencionales en la web (Ellsworth, 1995). Tambin se la denomina web profunda (deepweb), por oposicin a la web superficial (surface web) cuya informacin puede recuperarseon los buscadores de Internet (Bergman, 2000). Un buscador es un sitio web cuyo propsitorincipal consiste en que el pblico pueda encontrar informacin. Estos mecanismos y eloftware que los apoya tratan de indizar toda la web, por lo que generan y mantienen enormesases de datos recuperables. A pesar de su pretendida exhaustividad, se calcula que los

    mayores motores de bsqueda indizan slo entre un tercio y la mitad de los documentosdisponibles al pblico en la Red (Turner, 2003). Un estudio muy citado de Bright Planet hastimado que la informacin contenida en la web invisible es aproximadamente 550 veces

    mayor que la de la web superficial y crece a mucha mayor velocidad (Bergman, 2000). Unstudio posterior de Cyveillance calcula que el tamao de la web profunda es 275 veces mayorue el de la web visible (Murray, 2000, citado en Ouf, 2001). Estimaciones posteriores, enambio, sealan que el tamao de la web invisible es slo entre 2 y 50 veces mayor que el dea web visible (Sherman y Price, 2001b). Las diferencias en las cifras se deben a las diferentes

    metodologas utilizadas por los autores. En cualquier caso, el valor de la informacinontenida en la llamada web profunda justifica su estudio y el de sus formas de acceso.. Mecanismos de bsqueda en la web

    La multiplicidad de trminos con que se alude a los mecanismos de rastreo, indizacin,ecuperacin y organizacin de documentos en la web puede causar confusin al usuarioomn. Lo cierto es que cada herramienta de bsqueda funciona y tiene un propsito y alcance

    diferentes, pero cada vez ms las diferentes herramientas se combinan dando lugar a hbridos,ue pueden dificultar la comprensin del funcionamiento interno de estos mecanismos. Una

    dificultad adicional es el nmero creciente de mecanismos disponibles, lo que hace an msecesario clasificarlos y diferenciarlos.Buscadores

    A los softwares que usan los llamados buscadores, motores o maquinarias de bsqueda (searchngines) para localizar pginas agregables a sus bases de datos tambin se les denominandistintamente araas (spiders), rastreadores (crawlers) o robots (en el contexto web).

    Estos rastrean e indizan de forma automtica pginas web, as como todos los documentoseferenciados en ellas. Los buscadores tambin aaden a sus bases de datos las pginas de

    uya existencia son informados directamente por sus autores, as como los documentoseferenciados en las mismas. Los buscadores presentan interfaces para el pblico, queonsisten en cuadros donde realizar bsquedas de forma sencilla. Altavista, Ask Jeeves y

    Google, entre otros, son buscadores.Los buscadores arrojan resultados sobre las bsquedas realizadas en sus propios ndices y noobre la web directamente. Esto ltimo sera imposible debido al volumen de informacin y aliempo requerido para realizar la bsqueda. El rastreo de pginas web que efectan los robotse realiza con periodicidad variable y, por economa, tiende a no ser muy frecuente. Por ello,iempre existe una diferencia entre lo que pueden recuperar los buscadores y lo que realmentee encuentra en la web.

    Aparte del volumen y frecuencia de indizacin de documentos, la diferencia ms notoria entreos buscadores es su frmula para calcular la relevancia de la informacin recuperada y

    file:///C|/Documents%20and%20Settings/edudist/Es...%20de%20bsqueda%20en%20la%20web%20invisible.htm (3 de 21)04/12/2006 01:53:57 p.m.

    http://biblio.colmex.mx/recelec/web_invisible.htm#Ellsworthhttp://biblio.colmex.mx/recelec/web_invisible.htm#Bergmanhttp://biblio.colmex.mx/recelec/web_invisible.htm#Turnerhttp://biblio.colmex.mx/recelec/web_invisible.htm#Bergmanhttp://biblio.colmex.mx/recelec/web_invisible.htm#Oufhttp://biblio.colmex.mx/recelec/web_invisible.htm#Sherman%20y%20Pricebhttp://altavista.com/http://www.ask.com/http://www.google.com/intl/es/http://www.google.com/intl/es/http://www.ask.com/http://altavista.com/http://biblio.colmex.mx/recelec/web_invisible.htm#Sherman%20y%20Pricebhttp://biblio.colmex.mx/recelec/web_invisible.htm#Oufhttp://biblio.colmex.mx/recelec/web_invisible.htm#Bergmanhttp://biblio.colmex.mx/recelec/web_invisible.htm#Turnerhttp://biblio.colmex.mx/recelec/web_invisible.htm#Bergmanhttp://biblio.colmex.mx/recelec/web_invisible.htm#Ellsworth
  • 8/8/2019 Estrategias Busqueda Web Profunda

    4/21

    Estrategias y mecanismos de bsqueda en la web invisible

    rdenar as su presentacin. Algunos buscadores se basan en un anlisis estadstico derecuencia de palabras en el texto, otros en el anlisis de la frecuencia con que las pginasstn ligadas a otras. En algunos casos, los buscadores muestran los resultados indicando elrado de relevancia de cada documento, mediante signos como estrellas, o bien conorcentajes.

    Un estudio del 2000 (Notess, citado por Sherman y Price, 2001b) demostr que existe poco

    olapamiento entre buscadores, lo cual tal vez justifica su proliferacin, ya que cada uno vaubriendo diferentes reas del espacio web, sin que por ahora sea posible tcnicamente queinguno sea exhaustivo.

    Metabuscadores

    Los metabuscadores (metasearch engines) son servidores web que realizan bsquedas enmuchos buscadores y/o directorios y presentan un resumen de los resultados, eliminandoduplicaciones. Los metabuscadores no se sirven de robots, sino que van a buscar directamente

    los ndices de cada buscador. Dogpile, Mamma, Metacrawler o InfoSpace son ejemplos de

    metabuscadores.Los metabuscadores, al igual que los buscadores, suelen presentar los resultados ordenados porelevancia y muchas veces indican de qu buscadores especficos se ha recuperado cada

    documento.Una limitacin de los metabuscadores es que no suelen presentar opciones de bsquedavanzada, con lo cual se sacrifica la precisin en los resultados de las bsquedas.

    Existen sitios web concentradores de buscadores y/o directorios, donde es posible realizarsquedas sucesivas en varios de ellos, seleccionndolos de listas preestablecidas. A veces, enstos directorios los buscadores y/o directorios se encuentran clasificados por especialidad oobertura geogrfica. En otros casos, como en Metasearch por ejemplo, existe un mecanismoue "traduce" la frmula de bsqueda y permite realizar bsquedas sucesivas en variosuscadores y/o directorios.

    Directorios

    Los directorios (directories) son organizados manualmente a partir del registro de pginas porarte de sus autores e implican una seleccin editorial y un proceso de categorizacinerarquizada. LookSmart y Yahoo! son algunos de los directorios ms conocidos.

    Muchos directorios se especializan en un conjunto especfico de recursos, los cualeseneralmente son cuidadosamente seleccionados y descritos por los editores. Los editores den directorio pueden ser empleados por la empresa que lo realiza y entonces hablamos de un

    modelo cerrado (closed model directories), que implica un mayor costo, pero tambin unmayor grado de calidad. Si los editores del directorio son voluntarios, entonces se habla de unmodelo abierto (open model directories), lo que significa un costo y calidad inferiores. Losriterios de seleccin de recursos pueden ser explcitos o no, y variar segn los editores,specialmente en los modelos abiertos.

    Las categoras en las que se organiza el directorio pueden tener un nmero variable de recursos

    sociados, con lo cual algunas veces unas categoras resultan saturadas y otras muy pocoepresentadas. En ocasiones, razones como la falta de tiempo, conocimientos o habilidades deos editores, limitan la cobertura de los directorios. Por otro lado, la poltica de solicitar unargo por incluir pginas, que han adoptado algunos directorios, puede desalentar la inclusin

    file:///C|/Documents%20and%20Settings/edudist/Es...%20de%20bsqueda%20en%20la%20web%20invisible.htm (4 de 21)04/12/2006 01:53:57 p.m.

    http://biblio.colmex.mx/recelec/web_invisible.htm#Sherman%20y%20Pricebhttp://www.dogpile.com/info.dogpl/http://www.mamma.com/http://www.metacrawler.com/info.metac/dog/index.htmhttp://www.infospace.com/home/searchhttp://www.metasearch.com/http://www.looksmart.com/http://mx.yahoo.com/http://mx.yahoo.com/http://www.looksmart.com/http://www.metasearch.com/http://www.infospace.com/home/searchhttp://www.metacrawler.com/info.metac/dog/index.htmhttp://www.mamma.com/http://www.dogpile.com/info.dogpl/http://biblio.colmex.mx/recelec/web_invisible.htm#Sherman%20y%20Priceb
  • 8/8/2019 Estrategias Busqueda Web Profunda

    5/21

    Estrategias y mecanismos de bsqueda en la web invisible

    de recursos potencialmente valiosos.En cuanto a la actualizacin, como el mantenimiento del directorio debe ser manual, la

    erificacin de ligas puede realizarse tan frecuentemente como se quiera, aunque esto noiempre sucede.

    Muchos buscadores web incluyen un sistema de navegacin en forma de directorio pararientar la bsqueda de recursos en sus bases de datos. Por otro lado, debido a que la mayora

    de los directorios tienen un tamao relativamente reducido, algunos directorios complementanus resultados con los de una bsqueda en algn buscador. Algunos sitios incluyen dospciones de bsqueda, en directorios compilados manualmente, o bien en buscadores que seirven de robots.

    Frecuentemente los directorios tambin son denominados maquinarias de bsqueda (searchngines). Pero es importante distinguir entre los mecanismos que son buscadores y los queon directorios, ya que, como hemos visto, se conforman y funcionan de manera diferente. As,as formas de bsqueda ms eficientes varan en unos y otros. Mientras que la bsqueda poralabras es ms adecuada en los buscadores, la navegacin es ms recomendable en los

    directorios. Derivado de ello, las bsquedas en las categoras de un directorio elaborado paran buscador, o las bsquedas por palabras en un directorio, presentarn ciertas limitaciones.

    Por ejemplo, si se busca por palabras en un directorio, stas se extraern del ndice de ligaslinks) y anotaciones a esas ligas, que bsicamente componen el directorio y que excluyen elexto completo de las pginas referenciadas, a diferencia de los buscadores.

    Guas

    Diversos especialistas y entidades acadmicas se dan a la tarea de elaborar y mantener pginasoncentradoras de recursos web seleccionados por reas de especialidad, a modo de directorios

    notados o guas temticas (subject guides), que pueden contener recursos que no sonecuperables con un buscador comn. Estos directorios anotados o guas temticas suelen tenern alto grado de calidad, ya que comprometen el prestigio de los autores e institucionesnvolucradas. La seleccin de recursos suele ser muy cuidadosa y su actualizacin frecuente.

    En ocasiones diversas instituciones se asocian formando circuitos (web rings) para lalaboracin cooperativa de estas guas, dividindose cada una de las partes. Un buen ejemplo

    de ello es The WWW Virtual Library.Los directorios anotados o guas pueden incluir, adems, algn mecanismo de bsqueda en sus

    ginas o en la web en general.Tutoriales

    Comnmente no basta con conocer la variedad de herramientas de bsqueda disponibles en laweb, sino que se requiere una orientacin sobre su funcionamiento, sobre qu estrategiaseguir para trazar una adecuada ruta de bsqueda y sobre cmo elegir los mejores instrumentosara cada necesidad.

    How to Choose a Search Engine or Directory de la Universidad de Albany en Estados Unidos las guas de SearchAbility y de la Universidad de Leiden en HolandaA Collection of Special

    Search Engines, orientan al usuario en el amplio mundo tanto de los recursos especializados ena web como de las maquinarias que permiten su localizacin.

    Software especializado

    file:///C|/Documents%20and%20Settings/edudist/Es...%20de%20bsqueda%20en%20la%20web%20invisible.htm (5 de 21)04/12/2006 01:53:57 p.m.

    http://www.vlib.org/http://library.albany.edu/internet/choose.htmlhttp://www.searchability.com/http://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.searchability.com/http://library.albany.edu/internet/choose.htmlhttp://www.vlib.org/
  • 8/8/2019 Estrategias Busqueda Web Profunda

    6/21

    Estrategias y mecanismos de bsqueda en la web invisible

    Los agentes auxiliares para las bsquedas en la web son un tipo de programas que operan juntoon los navegadores web y aaden funcionalidades a stos, como el manejo de conceptos, enugar de palabras, para recuperar informacin. Flyswat, Kenjin y Zapper son algunos de estosrogramas. Otros agentes residen en el cliente web y permiten, por ejemplo, realizarsquedas simultneas en varios buscadores, eliminar las ligas muertas (dead links), refinar losesultados de las bsquedas o acceder a algunos sitios de la web invisible. Copernic, por

    jemplo, es uno de estos agentes.. Estrategias de bsqueda en la webMuchas veces, resulta tan frustrante no encontrar informacin en la web, como confusodisponer de demasiadas opciones de bsqueda y no saber cmo emprenderla.A continuacin presento algunas estrategias generales que deben tenerse en cuenta para

    tilizar las diferentes herramientas de bsqueda en la web de forma ms rpida y eficiente. Losubros bajo los cuales aparecen son orientativos.

    Estrategias generales

    Usar varios recursos de bsqueda, y no ceirse a uno exclusivamente para todos los tiposde bsqueda. Elaborar y mantener una lista propia de buscadores, metabuscadores, directorios, guas yecursos ms tiles. Guardar la seleccin en un archivo de Favoritos (bookmarks) en nuestraomputadora y/o en un servicio de acceso remoto a favoritos que permita consultar elrchivo desde cualquier computadora con acceso a la web, como Backflip.

    Consultar a los bibliotecarios para recibir orientacin sobre estrategias de bsqueda yocalizacin de recursos de informacin en la web, y para obtener documentos.

    Seleccin de herramientas Usar los tutoriales para aprender a seleccionar y utilizar las diferentes herramientas desqueda.

    Objetivo de la bsqueda

    Usar buscadores o metabuscadores para localizar informacin de la que poseemos datosspecficos. Usar directorios o guas para explorar reas de inters temtico.

    Forma de bsqueda

    Usar buscadores o metabuscadores para realizar bsquedas por palabras. Usar directorios o guas para revisar por categoras.Especializacin de la bsqueda

    Usar metabuscadores para realizar bsquedas generales en muchos buscadores a la vez. Usar los concentradores o directorios de buscadores para buscar en varios buscadoresspecializados.

    Precisin de la bsqueda

    Seleccionar e instalar en nuestra computadora la versin gratuita de algn motor

    vanzado o agente auxiliar para las bsquedas en la web. Solicitar la adquisicin para uso institucional de la versin completa de algn motorvanzado o agente auxiliar para las bsquedas en la web.

    Mucha informacin recuperada

    file:///C|/Documents%20and%20Settings/edudist/Es...%20de%20bsqueda%20en%20la%20web%20invisible.htm (6 de 21)04/12/2006 01:53:57 p.m.

    http://www.copernic.com/en/index.htmlhttp://www.backflip.com/dir_start.ihtmlhttp://www.backflip.com/dir_start.ihtmlhttp://www.copernic.com/en/index.html
  • 8/8/2019 Estrategias Busqueda Web Profunda

    7/21

    Estrategias y mecanismos de bsqueda en la web invisible

    Usar buscadores con opciones avanzadas de bsqueda. Usar directorios anotados o guas.

    Seleccin de recursos

    Usar las guas temticas para conocer los principales recursos de informacin que cubrenuestros intereses. Usar directorios especializados para bsquedas exhaustivas de recursos.

    Poca informacin recuperada Usar mecanismos de bsqueda en la web invisible cuando se hayan agotado los

    mecanismos de bsqueda en la web superficial. Consultar a especialistas que conozcan recursos especializados. Buscar en recursos adicionales si no se encuentra el material en la web.. Caracterizacin de la web invisible o profunda

    Sherman y Price (2001a) identifican cuatro tipos de contenidos invisibles en la web: la webpaca (the opaque web), la web privada (the private web), la web propietaria (the proprietary

    web) y la web realmente invisible (the truly invisible web).La web opaca

    Se compone de archivos que podran estar incluidos en los ndices de los motores de bsqueda,ero no lo estn por alguna de estas razones: Extensin de la indizacin: por economa, no todas las pginas de un sitio son indizadasn los buscadores. Frecuencia de la indizacin: los motores de bsqueda no tienen la capacidad de indizarodas las pginas existentes; diariamente se aaden, modifican o desaparecen muchas y la

    ndizacin no se realiza al mismo ritmo. Nmero mximo de resultados visibles: aunque los motores de bsqueda arrojan a vecesn gran nmero de resultados de bsqueda, generalmente limitan el nmero de documentosue se muestran (entre 200 y 1000 documentos). URLs desconectados: las generaciones ms recientes de buscadores, como Google,resentan los documentos por relevancia basada en el nmero de veces que apareceneferenciados o ligados en otros. Si un documento no tiene una liga en otro documento sermposible que la pgina sea descubierta, pues no habr sido indizada.

    La web privadaConsiste en las pginas web que podran estar indizadas en los motores de bsqueda pero sonxcluidas deliberadamente por alguna de estas causas: Las pginas estn protegidas por contraseas (passwords). Contienen un archivo robots.txt para evitar ser indizadas. Contienen un campo noindex para evitar que el buscador indice la parteorrespondiente al cuerpo de la pgina.

    La web propietaria

    ncluye aquellas pginas en las que es necesario registrarse para tener acceso al contenido, yaea de forma gratuita o pagada. Se dice que al menos 95% de la web profunda contienenformacin de acceso pblico y gratuito (Turner, 2003)

    La web realmente invisible

    file:///C|/Documents%20and%20Settings/edudist/Es...%20de%20bsqueda%20en%20la%20web%20invisible.htm (7 de 21)04/12/2006 01:53:57 p.m.

    http://biblio.colmex.mx/recelec/web_invisible.htm#Sherman%20y%20Priceahttp://www.google.com/intl/es/http://biblio.colmex.mx/recelec/web_invisible.htm#Turnerhttp://biblio.colmex.mx/recelec/web_invisible.htm#Turnerhttp://www.google.com/intl/es/http://biblio.colmex.mx/recelec/web_invisible.htm#Sherman%20y%20Pricea
  • 8/8/2019 Estrategias Busqueda Web Profunda

    8/21

    Estrategias y mecanismos de bsqueda en la web invisible

    Se compone de pginas que no pueden ser indizadas por limitaciones tcnicas de losuscadores, como las siguientes: Pginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programasjecutables y archivos comprimidos. Pginas generadas dinmicamente, es decir, que se generan a partir de datos quentroduce el usuario.

    Informacin almacenada en bases de datos relacionales, que no puede ser extrada amenos que se realice una peticin especfica. Otra dificultad consiste en la variable estructura diseo de las bases de datos, as como en los diferentes procedimientos de bsqueda.. Herramientas de bsqueda en la web profunda

    Buscadores

    En general, los buscadores han mejorado su desempeo en los ltimos aos, permitiendo unmayor nivel de precisin en las bsquedas y ofreciendo los resultados en formas cada vez msonvenientes para el usuario.

    Pero por ahora, los buscadores comunes slo pueden recuperar directamente la informacinue se encuentra disponible en la web y no aquella que se ofrece a travs de la web.Desde que se empez a hablar de la web invisible los buscadores comunes han aadidouncionalidades adicionales para la bsqueda en la llamada web profunda y han surgidouscadores especializados en ese segmento de la web. Estos ltimos permiten la bsqueda

    directa de artculos y documentos en texto completo y recuperan archivos PDF o PostScript.Metabuscadores

    Como hemos visto, los metabuscadores pueden presentar limitaciones respecto a lasosibilidades de bsqueda de cada buscador por separado. Por ejemplo, cuando la bsqueda esobre materiales o formatos especiales, resulta ms prctico sacar provecho de las opcionesvanzadas de bsqueda de los buscadores y, si es necesario, realizar bsquedas sucesivas enarios de ellos. En este sentido, son ms recomendables los directorios concentradores deuscadores.

    Directorios

    La mayora de los mecanismos que se usan para localizar recursos en la web profundaonsisten en directorios de recursos especializados, principalmente bases de datos disponibles

    de forma gratuita en la red. El patrocinio de las instituciones acadmicas en la elaboracin de

    os directorios, particularmente de los que son anotados, garantiza la cobertura y calidad de losecursos compilados.

    Guas

    Las guas de recursos especializados generalmente estn elaboradas por bibliotecarios y sonna excelente herramienta de bsqueda y localizacin de recursos, adems de constituir unuen instrumento de aprendizaje en el uso de la informacin.

    Tutoriales

    Las pginas ya mencionadasHow to Choose a Search Engine or Directoryde la Universidadde Albany en Estados Unidos y las guas de SearchAbility y de la Universidad de Leiden enHolandaA Collection of Special Search Engines incluyen los recursos de informacin y

    file:///C|/Documents%20and%20Settings/edudist/Es...%20de%20bsqueda%20en%20la%20web%20invisible.htm (8 de 21)04/12/2006 01:53:57 p.m.

    http://library.albany.edu/internet/choose.htmlhttp://www.searchability.com/http://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.searchability.com/http://library.albany.edu/internet/choose.html
  • 8/8/2019 Estrategias Busqueda Web Profunda

    9/21

    Estrategias y mecanismos de bsqueda en la web invisible

    squeda en la web profunda.

    Motores avanzados

    Finalmente, los recientes motores de pregunta dirigida (directed query engines) tienen laapacidad de realizar bsquedas simultneas en varias bases de datos en la web. Lexibot y su

    ucesor, Deep Query Manager, as como Distributed Explorer (Warnick y otros, 2001) yFeedPoint, son ejemplos de estos motores avanzados de bsqueda.. Estrategias de bsqueda en la web profunda

    Adems de las estrategias ya sealadas para la bsqueda en la web, podemos aadir otrasspecficas para la bsqueda en la web profunda o invisible, agrupadas en rubros orientativos.nformacin especializada

    Usar las herramientas de bsqueda en la web profunda si buscamos informacincadmica de calidad.

    Usar buscadores regionales especializados para localizar informacin originada fuera deos Estados Unidos o en idiomas diferentes al ingls. Usar metabuscadores para realizar bsquedas en varios buscadores especializados a laez.

    Bsquedas avanzadas

    Usar las opciones avanzadas de los buscadores para localizar imgenes o archivos PDF oPostScript. Usar directorios concentradores de buscadores para realizar bsquedas avanzadas

    ucesivas en varios de ellos.Evaluacin de la informacin Usar directorios anotados para evaluar si los recursos disponibles en la web profunda sontiles para la bsqueda que estamos realizando. Usar directorios de bases de datos para conocer cules de ellas pueden ofrecernosnformacin til para nuestras bsquedas.nformacin en bases de datos

    Usar guas, directorios o motores avanzados si la informacin que buscamos puede estar

    n una base de datos.6. Compilacin de recursos de bsqueda en la web profundaA continuacin presentar una compilacin de recursos de bsqueda en la web profunda, queonsidero que pueden ser de utilidad para los usuarios acadmicos universitarios. Dada lamportancia de distinguir entre tipos de recursos para seleccionar el tipo de bsqueda aealizar, los presento clasificados segn su funcionalidad, como buscadores, metabuscadores,

    directorios, guas y motores avanzados, primero ordenados alfabticamente y luego por tipo.

    Recursos de bsqueda en la web profunda

    ordenados alfabticamente

    file:///C|/Documents%20and%20Settings/edudist/Es...%20de%20bsqueda%20en%20la%20web%20invisible.htm (9 de 21)04/12/2006 01:53:57 p.m.

    http://www.brightplanet.com/products/product_specs.asphttp://biblio.colmex.mx/recelec/web_invisible.htm#Warnickhttp://www.quigo.com/feedpoint.htmhttp://www.quigo.com/feedpoint.htmhttp://biblio.colmex.mx/recelec/web_invisible.htm#Warnickhttp://www.brightplanet.com/products/product_specs.asp
  • 8/8/2019 Estrategias Busqueda Web Profunda

    10/21

    Estrategias y mecanismos de bsqueda en la web invisible

    Recurso TipoAbout

    ttp://www.about.com/Gua

    AcademicInfo

    ttp://www.academicinfo.net/Directorio

    AlphaSearchttp://www.alphasearch.org/ Directorio de buscadores

    Beaucoup

    ttp://www.beaucoup.com/Directorio de buscadores

    The Big Hub

    ttp://www.thebighub.com/Directorio

    Boogie

    ttp://www.iboogie.tv/

    MetabuscadorCollection of Search Engines

    ttp://www.leidenuniv.nl/ub/biv/specials.htmDirectorio de buscadores

    CompletePlanet

    ttp://www.completeplanet.com/Directorio

    Deep Query Manager (sustituye a Lexibot)ttp://brightplanet.com/news/dqm2.asp

    Motor avanzado

    Direct Searchttp://www.freepint.com/gary/direct.htm

    Directorio

    Fazzle

    ttp://www.fazzle.com/Metabuscador

    FeedPoint

    ttp://www.quigo.com/feedpoint.htmMotor avanzado

    Fossick

    ttp://fossick.com/

    Metabuscador

    HotSheet

    ttp://www.hotsheet.com/Directorio

    ncyWincy

    ttp://www.incywincy.com/Directorio

    nfomine

    ttp://infomine.ucr.edu/Directorio

    nternetInvisiblettp://www.internetinvisible.com/

    Directorio

    file:///C|/Documents%20and%20Settings/edudist/E...20de%20bsqueda%20en%20la%20web%20invisible.htm (10 de 21)04/12/2006 01:53:57 p.m.

    http://www.about.com/http://www.about.com/http://www.academicinfo.net/http://www.academicinfo.net/http://www.alphasearch.org/http://www.alphasearch.org/http://www.beaucoup.com/http://www.beaucoup.com/http://www.thebighub.com/http://www.thebighub.com/http://www.iboogie.tv/http://www.iboogie.tv/http://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.completeplanet.com/http://www.completeplanet.com/http://brightplanet.com/news/dqm2.asphttp://brightplanet.com/news/dqm2.asphttp://www.freepint.com/gary/direct.htmhttp://www.freepint.com/gary/direct.htmhttp://www.fazzle.com/http://www.fazzle.com/http://www.quigo.com/feedpoint.htmhttp://www.quigo.com/feedpoint.htmhttp://fossick.com/http://fossick.com/http://www.hotsheet.com/http://www.hotsheet.com/http://www.incywincy.com/http://www.incywincy.com/http://infomine.ucr.edu/http://infomine.ucr.edu/http://www.internetinvisible.com/http://www.internetinvisible.com/http://www.internetinvisible.com/http://www.internetinvisible.com/http://infomine.ucr.edu/http://infomine.ucr.edu/http://www.incywincy.com/http://www.incywincy.com/http://www.hotsheet.com/http://www.hotsheet.com/http://fossick.com/http://fossick.com/http://www.quigo.com/feedpoint.htmhttp://www.quigo.com/feedpoint.htmhttp://www.fazzle.com/http://www.fazzle.com/http://www.freepint.com/gary/direct.htmhttp://www.freepint.com/gary/direct.htmhttp://brightplanet.com/news/dqm2.asphttp://brightplanet.com/news/dqm2.asphttp://www.completeplanet.com/http://www.completeplanet.com/http://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.iboogie.tv/http://www.iboogie.tv/http://www.thebighub.com/http://www.thebighub.com/http://www.beaucoup.com/http://www.beaucoup.com/http://www.alphasearch.org/http://www.alphasearch.org/http://www.academicinfo.net/http://www.academicinfo.net/http://www.about.com/http://www.about.com/
  • 8/8/2019 Estrategias Busqueda Web Profunda

    11/21

    Estrategias y mecanismos de bsqueda en la web invisible

    nternets

    ttp://www.internets.com/Directorio

    nvisibleWeb.com

    ttp://www.invisibleweb.com/Directorio

    nvisible Web Directory

    ttp://www.invisible-web.net/Directorio

    xquick

    ttp://www.ixquick.com/Metabuscador

    Librarians Index

    ttp://lii.org/Directorio

    LibrarySpot

    ttp://www.libraryspot.com/Gua

    Master Link List On the Internetttp://www.web-friend.com/links/masterlinks.html

    Directorio

    ProFusion

    ttp://www.profusion.com/Metabuscador

    RefDesk.com

    ttp://refdesk.com/Directorio

    ResearchIndex (CiteSeer)ttp://citeseer.nj.nec.com/cs Buscador

    Resource Discovery Network

    ttp://www.rdn.ac.uk/Directorio anotado

    Scirus

    ttp://www.scirus.com/Buscador

    Search.Com

    ttp://www.search.com/

    Metabuscador

    Search4science

    ttp://www.search4science.com/Motor avanzado

    Strategic Finder

    ttp://www.strategicfinder.com/Motor avanzado

    WebData.com

    ttp://www.webdata.com/Directorio de bases de datos

    Webfile.comttp://webfile.com/ Directorio

    file:///C|/Documents%20and%20Settings/edudist/E...20de%20bsqueda%20en%20la%20web%20invisible.htm (11 de 21)04/12/2006 01:53:57 p.m.

    http://www.internets.com/http://www.internets.com/http://www.invisibleweb.com/http://www.invisibleweb.com/http://www.invisible-web.net/http://www.invisible-web.net/http://www.ixquick.com/http://www.ixquick.com/http://lii.org/http://lii.org/http://www.libraryspot.com/http://www.libraryspot.com/http://www.web-friend.com/links/masterlinks.htmlhttp://www.web-friend.com/links/masterlinks.htmlhttp://www.web-friend.com/links/masterlinks.htmlhttp://www.profusion.com/http://www.profusion.com/http://refdesk.com/http://refdesk.com/http://citeseer.nj.nec.com/cshttp://citeseer.nj.nec.com/cshttp://www.rdn.ac.uk/http://www.rdn.ac.uk/http://www.scirus.com/http://www.scirus.com/http://www.search.com/http://www.search.com/http://www.search4science.com/http://www.search4science.com/http://www.strategicfinder.com/http://www.strategicfinder.com/http://www.webdata.com/http://www.webdata.com/http://webfile.com/http://webfile.com/http://webfile.com/http://webfile.com/http://www.webdata.com/http://www.webdata.com/http://www.webdata.com/http://www.strategicfinder.com/http://www.strategicfinder.com/http://www.search4science.com/http://www.search4science.com/http://www.search.com/http://www.search.com/http://www.scirus.com/http://www.scirus.com/http://www.rdn.ac.uk/http://www.rdn.ac.uk/http://citeseer.nj.nec.com/cshttp://citeseer.nj.nec.com/cshttp://refdesk.com/http://refdesk.com/http://www.profusion.com/http://www.profusion.com/http://www.web-friend.com/links/masterlinks.htmlhttp://www.web-friend.com/links/masterlinks.htmlhttp://www.web-friend.com/links/masterlinks.htmlhttp://www.libraryspot.com/http://www.libraryspot.com/http://lii.org/http://lii.org/http://www.ixquick.com/http://www.ixquick.com/http://www.invisible-web.net/http://www.invisible-web.net/http://www.invisibleweb.com/http://www.invisibleweb.com/http://www.internets.com/http://www.internets.com/
  • 8/8/2019 Estrategias Busqueda Web Profunda

    12/21

    Estrategias y mecanismos de bsqueda en la web invisible

    WebSearch

    ttp://www.websearch.com.au/Buscador

    Where to Do Research

    ttp://www.wheretodoresearch.com/Directorio

    Recursos de bsqueda en la web profunda

    por tipo de recurso

    Tipo de recurso Nombre y direccin del recurso

    Buscadores ResearchIndex (CiteSeer)http://citeseer.nj.nec.com/cs

    Scirus

    http://www.scirus.com/

    WebSearch

    http://www.websearch.com.au/

    Metabuscadores iBoogiehttp://www.iboogie.tv/

    Fazzle

    http://www.fazzle.com/

    Fossick

    http://fossick.com/

    Ixquick

    http://www.ixquick.com/

    ProFusion

    http://www.profusion.com/

    file:///C|/Documents%20and%20Settings/edudist/E...20de%20bsqueda%20en%20la%20web%20invisible.htm (12 de 21)04/12/2006 01:53:57 p.m.

    http://www.websearch.com.au/http://www.websearch.com.au/http://www.wheretodoresearch.com/http://www.wheretodoresearch.com/http://citeseer.nj.nec.com/cshttp://citeseer.nj.nec.com/cshttp://www.scirus.com/http://www.scirus.com/http://www.websearch.com.au/http://www.websearch.com.au/http://www.iboogie.tv/http://www.iboogie.tv/http://www.fazzle.com/http://www.fazzle.com/http://fossick.com/http://fossick.com/http://www.ixquick.com/http://www.ixquick.com/http://www.profusion.com/http://www.profusion.com/http://www.profusion.com/http://www.profusion.com/http://www.ixquick.com/http://www.ixquick.com/http://fossick.com/http://fossick.com/http://www.fazzle.com/http://www.fazzle.com/http://www.iboogie.tv/http://www.iboogie.tv/http://www.websearch.com.au/http://www.websearch.com.au/http://www.scirus.com/http://www.scirus.com/http://citeseer.nj.nec.com/cshttp://citeseer.nj.nec.com/cshttp://www.wheretodoresearch.com/http://www.wheretodoresearch.com/http://www.websearch.com.au/http://www.websearch.com.au/
  • 8/8/2019 Estrategias Busqueda Web Profunda

    13/21

    Estrategias y mecanismos de bsqueda en la web invisible

    Search.Com

    http://www.search.com/

    Directorios de buscadores AlphaSearchhttp://www.alphasearch.org/

    Beaucoup

    http://www.beaucoup.com/

    Collection of Search Engines

    http://www.leidenuniv.nl/ub/biv/specials.htm

    Directorios

    The Big Hubhttp://www.thebighub.com/

    CompletePlanet

    http://www.completeplanet.com/

    Direct Search

    http://www.freepint.com/gary/direct.htm

    HotSheet

    http://www.hotsheet.com/

    IncyWincy

    http://www.incywincy.com/

    Infominehttp://infomine.ucr.edu/

    InternetInvisible

    http://www.internetinvisible.com/

    Internets

    http://www.internets.com/

    file:///C|/Documents%20and%20Settings/edudist/E...20de%20bsqueda%20en%20la%20web%20invisible.htm (13 de 21)04/12/2006 01:53:57 p.m.

    http://www.search.com/http://www.search.com/http://www.alphasearch.org/http://www.alphasearch.org/http://www.beaucoup.com/http://www.beaucoup.com/http://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.thebighub.com/http://www.thebighub.com/http://www.thebighub.com/http://www.completeplanet.com/http://www.completeplanet.com/http://www.freepint.com/gary/direct.htmhttp://www.freepint.com/gary/direct.htmhttp://www.hotsheet.com/http://www.hotsheet.com/http://www.incywincy.com/http://www.incywincy.com/http://infomine.ucr.edu/http://infomine.ucr.edu/http://www.internetinvisible.com/http://www.internetinvisible.com/http://www.internets.com/http://www.internets.com/http://www.internets.com/http://www.internets.com/http://www.internetinvisible.com/http://www.internetinvisible.com/http://infomine.ucr.edu/http://infomine.ucr.edu/http://www.incywincy.com/http://www.incywincy.com/http://www.hotsheet.com/http://www.hotsheet.com/http://www.freepint.com/gary/direct.htmhttp://www.freepint.com/gary/direct.htmhttp://www.completeplanet.com/http://www.completeplanet.com/http://www.thebighub.com/http://www.thebighub.com/http://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.beaucoup.com/http://www.beaucoup.com/http://www.alphasearch.org/http://www.alphasearch.org/http://www.search.com/http://www.search.com/
  • 8/8/2019 Estrategias Busqueda Web Profunda

    14/21

    Estrategias y mecanismos de bsqueda en la web invisible

    InvisibleWeb.com

    http://www.invisibleweb.com/

    Invisible Web Directory

    http://www.invisible-web.net/

    Librarians Index

    http://lii.org/

    Master Link List On the Internet

    http://www.web-friend.com/links/masterlinks.html

    RefDesk.com

    http://refdesk.com/

    Webfile.com

    http://webfile.com/

    Where to Do Research

    http://www.wheretodoresearch.com/

    Directorios anotados AcademicInfohttp://www.academicinfo.net/

    Resource Discovery Network

    http://www.rdn.ac.uk/

    Directorios de bases de datos WebData.comhttp://www.webdata.com/

    Guas Abouthttp://www.about.com/

    LibrarySpot

    http://www.libraryspot.com/

    Motores avanzados Deep Query Manager (sustituye a Lexibot)http://brightplanet.com/news/dqm2.asp

    file:///C|/Documents%20and%20Settings/edudist/E...20de%20bsqueda%20en%20la%20web%20invisible.htm (14 de 21)04/12/2006 01:53:57 p.m.

    http://www.invisibleweb.com/http://www.invisibleweb.com/http://www.invisible-web.net/http://www.invisible-web.net/http://lii.org/http://lii.org/http://www.web-friend.com/links/masterlinks.htmlhttp://www.web-friend.com/links/masterlinks.htmlhttp://refdesk.com/http://refdesk.com/http://webfile.com/http://webfile.com/http://www.wheretodoresearch.com/http://www.wheretodoresearch.com/http://www.academicinfo.net/http://www.academicinfo.net/http://www.rdn.ac.uk/http://www.rdn.ac.uk/http://www.webdata.com/http://www.webdata.com/http://www.about.com/http://www.about.com/http://www.libraryspot.com/http://www.libraryspot.com/http://brightplanet.com/news/dqm2.asphttp://brightplanet.com/news/dqm2.asphttp://brightplanet.com/news/dqm2.asphttp://brightplanet.com/news/dqm2.asphttp://www.libraryspot.com/http://www.libraryspot.com/http://www.about.com/http://www.about.com/http://www.webdata.com/http://www.webdata.com/http://www.rdn.ac.uk/http://www.rdn.ac.uk/http://www.academicinfo.net/http://www.academicinfo.net/http://www.wheretodoresearch.com/http://www.wheretodoresearch.com/http://webfile.com/http://webfile.com/http://refdesk.com/http://refdesk.com/http://www.web-friend.com/links/masterlinks.htmlhttp://www.web-friend.com/links/masterlinks.htmlhttp://lii.org/http://lii.org/http://www.invisible-web.net/http://www.invisible-web.net/http://www.invisibleweb.com/http://www.invisibleweb.com/
  • 8/8/2019 Estrategias Busqueda Web Profunda

    15/21

    Estrategias y mecanismos de bsqueda en la web invisible

    FeedPoint

    http://www.quigo.com/feedpoint.htm

    Search4science

    http://www.search4science.com/

    Strategic Finder

    http://www.strategicfinder.com/

    7. Qu tan invisible es hoy la web invisible?

    La web opaca

    No cabe duda de que los actuales buscadores y directorios de la web estn mejorando suuncionamiento. Ms all de los detalles tcnicos que el pblico no alcanza a ver, la eficienciade estas maquinarias ha aumentado y esto se aprecia en los resultados de las bsquedas. Amedida que estas herramientas se vayan haciendo ms poderosas disminuir la necesidad de lalaboracin manual de guas o concentradores de recursos y quizs ms la de orientacin enas estrategias de bsqueda y en el uso y aprovechamiento de los recursos localizados.

    Un observador cuidadoso puede apreciar que persiste la prctica de los robots de no indizarodas las pginas de un sitio, fijndose en los resultados de las bsquedas que arrojan las

    diferentes herramientas. Por ejemplo, se puede tener la referencia de una base de datos,disponible a travs de un sitio web, en una de las pginas del sitio que contiene una liga a ella,

    no aparecer, en cambio, la referencia a la pgina de acceso directo a la base de datos en eseitio.

    La frecuencia de la indizacin puede haber aumentado en algunos buscadores, o inclusoacerse de forma diferenciada para algunos recursos. Aquellas pginas que, por su naturaleza,aran ms (por ejemplo, la informacin burstil) seran visitadas ms frecuentemente por losobots que aquellas que tienden a ser ms estables en su contenido.

    El nmero mximo de resultados visibles no es un problema cuando los buscadores presentan

    os resultados ordenados por relevancia, pues siempre aparecern primero aquellos que sejustan ms a la bsqueda realizada. En la medida en que se pueda realizar una bsquedavanzada y los criterios de relevancia combinen el nmero de ligas con la frecuencia dealabras, la presentacin de los resultados no constituir un obstculo para encontrar lanformacin. El usuario siempre debe tener en cuenta que los buscadores son ms apropiadosuando la bsqueda es especfica, es decir, se conocen datos sobre lo que se busca; mientrasue es ms adecuado realizar bsquedas temticas en los directorios.

    Los URLs desconectados podran evitarse si existiera la obligacin de registrar, aunque fuera

    de forma muy sencilla, toda pgina que se colgara en la web. Pero dada la grandescentralizacin de Internet, esto no parece vislumbrarse en un futuro inmediato.La web privada

    Este segmento de la web no representa una gran prdida en trminos de valor de la

    file:///C|/Documents%20and%20Settings/edudist/E...20de%20bsqueda%20en%20la%20web%20invisible.htm (15 de 21)04/12/2006 01:53:57 p.m.

    http://www.quigo.com/feedpoint.htmhttp://www.quigo.com/feedpoint.htmhttp://www.search4science.com/http://www.search4science.com/http://www.strategicfinder.com/http://www.strategicfinder.com/http://www.strategicfinder.com/http://www.strategicfinder.com/http://www.search4science.com/http://www.search4science.com/http://www.quigo.com/feedpoint.htmhttp://www.quigo.com/feedpoint.htm
  • 8/8/2019 Estrategias Busqueda Web Profunda

    16/21

    Estrategias y mecanismos de bsqueda en la web invisible

    nformacin que contiene, ya que se trata, en general, de documentos excluidosdeliberadamente por su falta de utilidad. En cualquier caso, son los dueos de la informacinos que deciden no hacerla disponible, por lo que difcilmente se podrn encontrar mecanismosegtimos para franquear esa barrera. Adems, los archivos robots.txt sirven para evitar que losobots caigan en agujeros negros, que les hagan entrar en procesos circulares interminables,

    mermando as la eficiencia en su funcionamiento (Koster, 1997).

    La web propietariaEn un artculo reciente de la OCLC Office for Research (ONeill, 2003) se examinan lasendencias en cuanto a tamao, crecimiento e internacionalizacin de la web pblica, es decir,a porcin de informacin ms visible y accesible para el usuario promedio. Las principalesonclusiones del estudio son: El crecimiento de la web pblica muestra un estancamiento en los ltimos aos. Ello se

    debe a que se crean menos sitios web y otros desaparecen, aunque esto no quiere decir que noumente en volumen de informacin, es decir, en nmero de pginas o nmero de terabytes.

    Otra posibilidad, que no se seala en este estudio, pero que puede aventurarse, es que algunositios web estn transformndose en sitios accesibles solamente mediante pago. La web pblica est dominada por contenidos originados en los Estados Unidos, as comoscritos en ingls. Esto nos lleva a pensar que es probable que haya ms recursos invisibles enginas originadas en pases distintos a los Estados Unidos y en idioma diferente al ingls.

    La web realmente invisible

    Algunos buscadores tradicionales como Altavista o Google han evolucionado y presentanhora la posibilidad de realizar bsquedas por materiales o formatos especiales. As, Altavista

    ermite la bsqueda de imgenes, audio y video, presentando opciones de bsqueda avanzada.Google permite realizar bsquedas avanzadas para localizar imgenes. Por su parte, eloncentrador HotBot presenta la posibilidad de buscar por distintos formatos, para localizarmgenes, audio, vdeo, archivos PDF, Script y Shockwave/Flash. Estas opciones estn activasn HotBot para los buscadores Fast (Altheweb) e Inktomi (Pure Web Search), mientras que nouncionan con Teoma ni Google, aunque como dijimos existe esta posibilidad si se realiza lasqueda directamente desde el sitio de Google.

    Estas bsquedas en materiales especiales, como imgenes, audio y vdeo son posibles porque

    e realiza una catalogacin textual de stos. Las bsquedas en materiales en formatos comoPDF, Flash, etc. se pueden realizar porque existen directorios de estos archivos. As, el

    rincipal medio por el cual se pueden efectuar las bsquedas es el texto. Por ejemplo, siueremos recuperar imgenes en blanco y negro, stas deben estar clasificadas de ese modo ena base de datos. Esto implica, desde luego un proceso manual. Hoy por hoy, los mtodosibliotecarios tradicionales resultan ser los ms eficaces en la bsqueda de informacin, al

    menos mientras la inteligencia artificial no avance ms. Realizar una bsqueda del tipo quierootografas de personas que se parezcan a Woody Allen slo es posible si hay un especialista

    ue clasifique las imgenes para distinguir si se trata de dibujos o fotografas, si stas son deersonas, y adems incluya la informacin acerca de los parecidos. Las maquinarias actualesde bsqueda son extraordinariamente eficaces para recuperar informacin textual, pero esto noxcluye la necesidad de la catalogacin y clasificacin de los recursos. Por lo mismo, el

    file:///C|/Documents%20and%20Settings/edudist/E...20de%20bsqueda%20en%20la%20web%20invisible.htm (16 de 21)04/12/2006 01:53:57 p.m.

    http://biblio.colmex.mx/recelec/web_invisible.htm#Kosterhttp://biblio.colmex.mx/recelec/web_invisible.htm#O'Neillhttp://altavista.com/http://www.google.com/intl/es/http://altavista.com/http://www.google.com/intl/es/http://www.hotbot.com/http://www.hotbot.com/http://www.altheweb.com/http://search.positiontech.com/InktomiSearch/PositionTechSearch.jsphttp://www.teoma.com/http://www.google.com/intl/es/http://www.google.com/intl/es/http://www.google.com/intl/es/http://www.google.com/intl/es/http://www.teoma.com/http://search.positiontech.com/InktomiSearch/PositionTechSearch.jsphttp://www.altheweb.com/http://www.hotbot.com/http://www.hotbot.com/http://www.google.com/intl/es/http://altavista.com/http://www.google.com/intl/es/http://altavista.com/http://biblio.colmex.mx/recelec/web_invisible.htm#O'Neillhttp://biblio.colmex.mx/recelec/web_invisible.htm#Koster
  • 8/8/2019 Estrategias Busqueda Web Profunda

    17/21

    Estrategias y mecanismos de bsqueda en la web invisible

    mero de archivos de este tipo que se pueden recuperar con los buscadores actuales tiene queer limitado. Una pgina web que contiene una imagen, sin mayor informacin textual acerca eu contenido, no podr ser recuperada automticamente ms que por su extensin (.jpg, porjemplo).

    Como hemos visto, la definicin ms genrica de lo que constituye la web invisible o profundapunta a los recursos que no pueden ser recuperados mediante las herramientas comunes de

    squeda. Para verificar qu tan visible es la porcin de la web profunda que ha sidodentificada por los autores de The Invisible Web, he seleccionado al azar diez recursos de suThe Invisible Web Directoryy he procedido a realizar la bsqueda en un buscador, undirectorio, un metabuscador y un agente metabuscador avanzado en su versin gratuita. Losesultados de esta sencilla prueba aparecen reflejados en el cuadro de la pgina siguiente.

    Resultados de bsqueda de recursos de The Invisible Web DirectoryRecurso MSN Yahoo! MetaCrawler Copernic

    Artcyclopedia SI SI SI (6 buscadores) SI (8 buscadores)

    CRA ForsytheList

    SI SI SI (3 buscadores) SI (5 buscadores)

    Current Films inhe WorkBoxoffice

    Hollywood HotSet)

    SI SI SI (3 buscadores) SI (4 buscadores)

    EmployeeBenefitsNFOSOURCE

    SI SI SI (2 buscadores) SI (3 buscadores)

    Hamnet SI SI SI (4 buscadores) SI (6 buscadores)

    nfonation SI SI SI (5 buscadores) SI (7 buscadores)

    ourlit SI SI SI (3 buscadores) SI (7 buscadores)

    Scholarly

    Societies Project

    SI SI SI (4 buscadores) SI (6 buscadores)

    VesselRegistrationQuery System

    SI SI SI (2 buscadores) SI (6 buscadores)

    Whos who inAmerican ArtAskArt)

    SI SI SI (6 buscadores) SI (8 buscadores)

    Vemos que todos los recursos seleccionados de The Invisible Web Directory son localizableson las actuales herramientas de bsqueda. Adems, en los resultados se observa que existen

    mltiples referencias en otras pginas, es decir, que se trata de pginas conectadas. La nicadificultad para encontrarlas consiste, en algunos casos, en las palabras con las cuales se

    file:///C|/Documents%20and%20Settings/edudist/E...20de%20bsqueda%20en%20la%20web%20invisible.htm (17 de 21)04/12/2006 01:53:57 p.m.

    http://www.invisible-web.net/http://www.invisible-web.net/http://www.artcyclopedia.com/http://www.cra.org/reports/forsythe.htmlhttp://www.cra.org/reports/forsythe.htmlhttp://www.boxoff.com/justinhotset.htmlhttp://www.boxoff.com/justinhotset.htmlhttp://www.ifebp.org/infosource/default.asphttp://www.ifebp.org/infosource/default.asphttp://www.ifebp.org/infosource/default.asphttp://shakespeare.folger.edu/http://cyberschoolbus.un.org/infonation/info.asphttp://www.apsa.org/lit/http://ssp-search.uwaterloo.ca/compound.cfmhttp://ssp-search.uwaterloo.ca/compound.cfmhttp://www.tc.gc.ca/ShipRegistry/menu.asp?lang=ehttp://www.tc.gc.ca/ShipRegistry/menu.asp?lang=ehttp://www.tc.gc.ca/ShipRegistry/menu.asp?lang=ehttp://www.askart.com/http://www.askart.com/http://www.invisible-web.net/http://www.invisible-web.net/http://www.askart.com/http://www.askart.com/http://www.tc.gc.ca/ShipRegistry/menu.asp?lang=ehttp://www.tc.gc.ca/ShipRegistry/menu.asp?lang=ehttp://www.tc.gc.ca/ShipRegistry/menu.asp?lang=ehttp://ssp-search.uwaterloo.ca/compound.cfmhttp://ssp-search.uwaterloo.ca/compound.cfmhttp://www.apsa.org/lit/http://cyberschoolbus.un.org/infonation/info.asphttp://shakespeare.folger.edu/http://www.ifebp.org/infosource/default.asphttp://www.ifebp.org/infosource/default.asphttp://www.ifebp.org/infosource/default.asphttp://www.boxoff.com/justinhotset.htmlhttp://www.boxoff.com/justinhotset.htmlhttp://www.cra.org/reports/forsythe.htmlhttp://www.cra.org/reports/forsythe.htmlhttp://www.artcyclopedia.com/http://www.invisible-web.net/http://www.invisible-web.net/
  • 8/8/2019 Estrategias Busqueda Web Profunda

    18/21

    Estrategias y mecanismos de bsqueda en la web invisible

    denomina el sitio o el recurso. Por ejemplo, en el The Invisible Web Directoryaparece VesselQuery Registration System, en lugar de Vessel Registration Query System, lo cual hace quea bsqueda por todas las palabras sea exitosa, pero la bsqueda por frase no. Igualmente, la

    denominacin de Whos who in American Art para el sitio de AskArt, dificulta lasqueda, mientras que si se busca directamente por su nombre aparece en numerososuscadores. La tabla refleja adems cmo el solapamiento entre buscadores es variable.

    Desde luego, se puede decir que el contenido de las bases de datos que estn incluidas en estedirectorio es invisible, ya que es necesario realizar las bsquedas directamente en cada una dellas. Pero lo cierto es que llegar hasta la puerta de estas bases de datos resulta relativamenteencillo. El mismo hecho de que el directorio haya sido colocado en la web, le confiere mayorisibilidad a los recursos incluidos, ya que las ligas en el directorio aumentan la posibilidad dendizacin de esas pginas. Entonces, podemos decir que The Invisible Web Directoryes unuen directorio de recursos y bases de datos disponibles en la web, pero no un directorio deecursos invisibles.

    En conclusin, lo que realmente sigue siendo invisible en la web son:-- las pginas desconectadas;-- las pginas no clasificadas que contienen principalmente imgenes, audioo vdeo;-- las pginas no clasificadas que contienen principalmente archivos PDF,PostScript, Flash, Shockwave, ejecutables y comprimidos;-- el contenido de las bases de datos relacionales;-- el contenido que se genera en tiempo real;-- el contenido que se genera dinmicamente.

    Pero:-- algunos buscadores recuperan archivos PDF y pginas con imgenes,aunque de forma limitada;-- es relativamente sencillo llegar hasta la puerta de las bases de datos concontenido importante;-- existen ya motores avanzados capaces de realizar bsquedas directassimultneas en varias bases de datos a la vez; y aunque la mayora requieren depago, tambin ofrecen versiones gratuitas;

    -- el contenido que se genera en tiempo real pierde validez con muchavelocidad, salvo para anlisis histricos;-- es relativamente sencillo llegar hasta la puerta de los servicios queofrecen informacin en tiempo real;-- el contenido que se genera dinmicamente interesa nicamente a ciertosusuarios con caractersticas especficas;-- es relativamente sencillo llegar hasta la puerta de los servicios queofrecen contenido generado dinmicamente.

    8. Bibliografa

    file:///C|/Documents%20and%20Settings/edudist/E...20de%20bsqueda%20en%20la%20web%20invisible.htm (18 de 21)04/12/2006 01:53:57 p.m.

    http://www.invisible-web.net/http://www.invisible-web.net/http://www.invisible-web.net/http://www.invisible-web.net/
  • 8/8/2019 Estrategias Busqueda Web Profunda

    19/21

    Estrategias y mecanismos de bsqueda en la web invisible

    1. A collection of special search engines [Pgina Web]. Consultada 2003 Abr.24. Disponible en: http://www.leidenuniv.nl/ub/biv/specials.htm

    2. The Deep Web [Pgina Web]. 2002; Consultada 2003 Mayo 6. Disponibleen: http://library.albany.edu/internet/deepweb.html.University at Albany Libraries. Internet tutorials

    3. FOLDOC: Free On-Line Dictionary of Computing [Pgina Web].Consultada 2003 Abr. 24. Disponible en : http://foldoc.doc.ic.ac.uk/foldoc/

    4. How to Choose a Search Engine or Directory [Pgina Web]. 2003 ;Consultada 2003 Mayo 14. Disponible en: http://library.albany.edu/internet/choose.html

    5. Invisible Web: What it is, Why it exists, How to find it, and Its inherent

    ambiguity [Pgina Web]. Consultada 2003 Mayo 5. Disponible en: http;//www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.html.UC Berkeley. Teaching Library Internet Workshops. Finding information on theInternet: a tutorial.

    6. Search Engines Terms: As Suggested by Members of the I-Search Digest[Pgina Web]. Consultada 2003 Abr. 24. Disponible en: http://www.cadenza.org/search_engine_terms/

    7. Top 25 Invisible Web Categories. Searcher. 2001; 9(6):68-72.

    8. Le Web Invisible [Pgina Web]. Consultada 2003 Mayo 5. Disponible en:http://f.magnan.free.fr/web_invisible.htm

    9. What is Fast? [Pgina Web]. Consultada 2003 Mayo 13. Disponible en:http://www.lexibot.com/howitworks/whatisfast.asp

    10. The WWW Virtual Library [Pgina Web]. Consultada 2003 Abr 24.Disponible en: http://www.vlib.org/

    11. Bergman, Michael K. The Deep Web: Surfacing Hidden Value. BrightPlanet; 2000.

    12. Botluk, Diana. Minig Deeper Into the Invisible Web . Law LibraryResource Xchange; 2000.Features.

    13. Dragutsky, Paula. Guides to Specialized Search Engines [Pgina Web].2003; Consultada 2003 Mayo 15. Disponible en: http://www.searchability.com

    file:///C|/Documents%20and%20Settings/edudist/E...20de%20bsqueda%20en%20la%20web%20invisible.htm (19 de 21)04/12/2006 01:53:57 p.m.

  • 8/8/2019 Estrategias Busqueda Web Profunda

    20/21

    Estrategias y mecanismos de bsqueda en la web invisible

    14. Daz, Karen R. The Invisible Web: Navigating the Web outside TraditionalSearch Engines. Reference & User Services Quarterly. 2000; 40(2):131-134.

    15. Ellsworth, Jill and Ellsworth, Matthew V. Marketing on the Internet :Multimedia Strategies for the World Wide Web. New York: John Wiley & Sons;1995.

    16. Koster, Martijn. Robots in the Web: threat or treat? [Pgina Web]. 1997;Consultada 2003 Mayo 16. Disponible en: http://www.robotstxt.org/wc/threat-ortreat.html.

    17. O'Neill, Edward T.; Lavoie, Brian F., and Bennett, Rick. Trends in theEvolution of the Public Web: 1998-2002. D-Lib Magazine. 2003; 9(4).

    18. Ouf, Rehib. Le Dynamisme du World Wide Web: Taille, Croissance,

    Visibilit, Distribution et Accessibilit de l'Information. Lyon, France: EcoleNationale Suprieure des Sciences de l'Information et des Bibliothques; 2001.

    19. Salazar Garca, Idoia. La Red profunda: lo que los buscadoresconvencionales no encuentran. En: Fernndez Muerza, Alex and Dantart Usn,Alex, Coordinacin. Congreso ONLINE del Observatorio para la CiberSociedad;Espaa.Comunicaciones - Grupo 20: Periodismo y Comunicacin Digital

    20. Sherman, Chris. The Invisible Web. Free Pint. 2000; (64).

    21. ---. Navigating the Invisible Web. SearchDay. 2001.

    22. Sherman, Chris and Price, Gary. The invisible Web. Searcher. 2001; 8(9):62-74.

    23. ---. The invisible Web: Uncovering information sources search engines can'tsee. Medford, New Jersey: CyberAge Books; Information Today; 2001.

    24. Sullivan, Danny. Invisible Web Gets Deeper. The Search Engine Report.2000.

    25. Turner, Laura. Doing it Deeper: The Deep Web [Pgina Web]. Consultada2003 Mayo 2. Disponible en: http://www.bhsu.edu/education/edfaculty/lturner/The%20Deep%20Web%20article1.doc

    26. Warnick, Walter L; Lederman, Abe; Scott, R. L.; Spence, Karen J.;Johnson, Lorrie A., and Allen, Valerie S. Searching the Deep Web: DirectedQuery Engine Applications at the Department of Energy. D-Lib Magazine. 2001;7(1).

    file:///C|/Documents%20and%20Settings/edudist/E...20de%20bsqueda%20en%20la%20web%20invisible.htm (20 de 21)04/12/2006 01:53:57 p.m.

  • 8/8/2019 Estrategias Busqueda Web Profunda

    21/21

    Estrategias y mecanismos de bsqueda en la web invisible

    27. Wiseman, Ken . The invisible Web [Pgina Web]. Consultada 2002 Mayo5. Disponible en: http://www3.dist214,k12.il.us/invisible/article/invisiblearticle.html