Upload
gestao
View
8.431
Download
5
Embed Size (px)
DESCRIPTION
Citation preview
WEB SEMÂNTICARecuperação da Informação
Prof. Fábio Assis PinhoProf. Fábio Assis Pinho.
UNIVERSIDADE FEDERAL DE PERNAMBUCO
Recuperação da Informação:
Prof. Fábio Assis PinhoApresentação:
•Ailton Pedro
•Aurélio Fernando
•Clodoaldo Santos
•Corina Nascimento
•José Aniceto
•José Ricardo
•Rafael Rodrigo
WEB WEB SEMÂNTICASEMÂNTICA
Maio / 2009
“A Web Semântica é uma extensão da Web atual, onde a informação possui um
significado claro e bem definido, possibilitando uma melhor interação entre
computadores e pessoas”.
WEB WEB SEMÂNTICASEMÂNTICA
Berners Lee.
A História da Web
Corina Nascimento
A História da Internet
Fatos históricos• Biblioteca de Alexandria, criada por Ptolomeu I (289
a.C.);• Mundaneum, idealizado por Paul Otlet e Henri de La
Fontaine, eles começaram a coletar dados de todos os livros, revistas, artigos já publicados, usando cartões de índice de 7 a 12 cm (o que havia de mais avançado na tecnologia de armazenamento)criando um banco de dados com mais de 12 milhões de entradas individuais ;
• Memex, máquina capaz de estocar grande quantidade de informação de forma fácil que permitisse uma rápida recuperação. Nunca foi construída, embora Vannevar Bush a enxergasse como a extensão natural das tecnologias existentes em 1945;
• Projeto Xanadu, criado por Theodore Nelson imaginando uma imensa rede de informações acessível em tempo real, contendo todo o saber literário e científico do mundo.
A Evolução da Internet
• Durante a Guerra Fria, o departamento de defesa dos EUA, pensou em um sistema que interligasse vários pontos, de modo que não centralizasse o comando,(Anos 60/70);
• 1969 surge a ARPAnet (Advanced Research Projects Agency), rede que interligava originalmente vários centros de pesquisa;
• Início dos anos 80, foi desenvolvida uma nova utilidade para a ARPnet, interligar laboratórios e universidade nos EUA, surgiu o nome Internet;
• Final dos anos 80, a Internet passa a ser vista como um eficiente veículo de comunicação mundial, onde cientistas e acadêmicos passaram a utilizá-la mais intensamente (existia apenas em formato de texto, antigos arquivos Gopher;
• O Protocolo de comutação de pacotes originais usado pela ARPAnet era o NCP (Network Control Protocol), mudado para o TCP/IP (Transfer Control Protocol/Internet Protocol) desenvolvido pela UNIX.
• Anos 90, Tim Berners-Lee com sua equipe de pesquisadores, teve a idéia de desenvolver um sistema de hipertexto que deveria funcionar em redes de computadores;
• 1991, esses pesquisadores tiveram a idéia de criar a Word Wide Web (maior parte das informações em formato de texto, com poucos desenhos)
• 1992 foi criado o Mosaic (capaz de interpretar gráficos e realizar navegações através de links), primeiro navegador para Internet, para sistema X Windows
• Em seguida apareceram versões do Mosaic para Macintosh e Microsoft Windows;
• Nos dias atuais os padrões com o qual as páginas são programadas são definidas pela W3C (World Wide Web Consortium), consórcio liderado por Tim Beeners-Lee, do qual fazem parte empresas como Microsoft, Apple, Sun e Netscape.
A Evolução da Internet
• A 1ª fase restringiu-se ao âmbito acadêmico;• Em 1987 pesquisadores e técnicos da
EMBRATEL se reuniram na USP, para discutir a montagem de uma rede que interligasse universidades brasileiras e internacionais;
• Em 1989 foi criada a RNP (Rede Nacional de Pesquisa), com o objetivo inicial de construir uma infraestrutura de rede nacional de âmbito acadêmico;
• Em 1991, a FAPESP (Fundação de Amparo à Pesquisa do Estado de São Paulo) estabeleceu a primeira conexão utilizando o padrão TCP/IP, permitindo a administração de domínio “.br” e a distribuição de endereços IP para todo o país.
A Evolução da Internet no Brasil
A Evolução da Internet no Brasil
• Em 1995, teve início o processo de abertura da Internet no país, por meio da EMBRATEL e da RNP;
• Em 1996, depois de autorizado pelo ministro das Comunicações, a Internet brasileira deixou de ser um privilégio de universidades e passou a ser explorada comercialmente.
Números
• Tempo que novas tecnologias levaram para atingir 50 milhões de usuários no mundo:– Rádio 38 anos– Computador 16 anos– Televisão 13 anos– TV a cabo 10 anos– Internet 4 anos
Estrutura e componentes da WEB
• O desenvolvimento da WEB, só foi possível a partir da definição de padrões abertos;
• Ao utilizar padrões disponíveis para todos, tornou-se mais fácil a adaptação das diferentes redes ou diferentes equipamentos utilizados;
• Já que sua proposta é a interconexão de redes de diversos tipos;
• Entre os padrões abertos, pode-se destacar o HTTP (Hypertext Transfer Protocol), que pode ser entendido como um conjunto de regras definidas para a comunicação entre os componentes da WEB.
• Outro componente fundamental na Internet é o Identificador Único de Recurso(URI), codifica nomes dos recurso e respectivos endereços na Internet
• Um URI é um padrão que pode ser representado pelos conceitos de URL (Localizador Único de Recurso) e URN (Nome Único de Recurso)
Estrutura e componentes da WEB
• URI é formado por basicamente três partes:
Protocolo
Nome do Recurso
Localização do Recurso (Indicando o Servidor)
200.146.172.1
http://www.ufpe.br/dci/site
Estrutura e componentes da WEB
• Para disponibilização de recursos informacionais no ambiente WEB, são utilizados documentos informacionais chamados páginas WEB;
• Estas páginas são desenvolvidas utilizando linguagens computacionais denominadas linguagens de marcação;
• Ao invés de utilizar comandos e funções para realização de tarefas, utiliza “tags”, para marcar o conteúdo do documento;
Estrutura e componentes da WEB
• A HTML (Hypertext Markup Language´) é considerada como a linguagem padrão para o desenvolvimento de páginas da WEB
• Derivada da linguagem SGML (Standard Generalized Markup Language)
• Utiliza o padrão ASCII, considerado como um formato de texto simples, que pode ser identificado de qualquer computador;
• A HTML representa os dados de forma simples, priorizando o modo de apresentação de conteúdos.Não possibilita a descrição de estruturas semânticas;
• Para marcar um trecho de texto informando que é um parágrafo, em HTML deve utilizar os tags <P> e </P> no início e no final do parágrafo.
• Um fator de limitação da HTML é que ela impossibilita a atribuição de significados aos conteúdos das páginas, trazendo assim um grande volume de dados não relevantes, dificultando a recuperação de informações. Falta de extensibilidade;
Estrutura e componentes da WEB
WEB SEMÂNTICA
• Vem se apresentando como a solução para ordenar o caos informacional existente na web;
• Possibilitará a compreensão e o gerenciamento dos conteúdos armazenados na web;
• O fantasma da perda de informação ou mensagens do tipo “Error 404: Not Found” deverão inexistir, ou estar sob controle;
• Para implementação ou reorganização da WEB SEMÂNTICA há um contingente de pesquisadores trabalhando no W3C, em países como EUA, França e Japão, com a missão de alavancar a web ao seu potencial máximo.
Arquitetura da Web Semântica Parte 1
Aurélio Fernando
IntroduçãoA internet tornou-se um fenômeno mundial, sendo possível acessar informações em diversas partes do mundo instantaneamente. O volume destas informações alcançaram números impressionantes nos dias atuais.Entretanto o vasto número de documentos Web e a falta de padronização dessas informações originaram um problema para os usuários na hora de navegar na Internet e assim achar as informações desejadas. Esse problema é chamado de Information Overload. Esse problema é caracterizado quando uma pessoa, ao realizar uma consulta, obtém um número excessivo de informações como resposta e não consegue absorvê-las ou tratá-las, tendo que examinar todos os documentos resultantes para encontrar as informações desejadas. Como a maior parte das informações disponíveis na Internet, está disposta em linguagem natural, sendo compreensíveis apenas por humanos, houve a necessidade de uma semântica que permitisse uma padronização das informações sendo possível o processamento dessas informações por humanos e máquinas, surgindo assim a idéia do desenvolvimento da Web Semântica.
O termo "Semântica" é definido como sendo o estudo do sentido das palavras.
Arquitetura• A Web Semântica introduz estrutura e significado ao
conteúdo disponível na internet, visando transformar uma rede de documentos em uma rede de dados, compreensível tanto para humanos quanto para computadores, de maneira a possibilitar que os últimos cooperem melhor durante a realizacão de tarefas, ou quando da realização de um serviço aos usuários.
• O principal desafio da Web Semântica é criar uma linguagem que consiga expressar o significado e ao mesmo tempo estabelecer regras para processar esse significado de forma a inferir novos dados e regras. As regras para o processamento do significado devem ser exportadas para a web afim de permitir que outros sistemas inteligentes possam interagir.
Na proposta de desenvolvimento da Web Semântica é sugerida uma arquitetura de 3 camadas:
Arquitetura
•A camada de Estrutura: que estrutura os dados e define seu significado;
•A camada ontologia: que define as relações entre os dados;
•A camada lógica: que define mecanismos para fazer inferências sobre os dados.
Dados
Regras de I nferência
Cam ada deEstrutura
Cam ada Lógica
W eb Sem ântica
Cam ada deOntologia
…
Arquitetura• Disposição das
camadas
Arquitetura
Dados
Regras de Inferência
CamadadeEstrutura
Camada Lógica
Web Semântica
CamadadeOntologia
…
Camada de Estutura
ArquiteturaA camada A camada de Estrutura:de Estrutura:• A camada de estrutura provê uma forma de definir os dados
do documento e o significado associado a esses dados. Trata também da estruturação e disposição dos dados de forma que os programas que rodam na web possam fazer inferência a partir dos mesmos.
Para que haja a representacão do conhecimento são necessarias três condições:
Interoperabilidade estrutural: Permite que os dados sejam representados de forma distinta, permitindo especicar tipos e possíveis valores para cada forma de representação;
Interoperabilidade sintática: Constitui- se de regras precisas que permitem o intercâmbio de dados na Web;
Interoperabilidade Semântica: Possibilita a compreensão e associação entre os dados.
Para atender esses requisitos, utiliza-se XML e RDF.
Arquitetura
Dados
Regras de Inferência
CamadadeEstrutura
Camada Lógica
Web Semântica
CamadadeOntologia
…
Camada de Ontologia
Arquitetura
A camada OntologiaA camada Ontologia::
• Duas bases de dados podem utilizar terminologias diferentes para referir-se a mesma informação, resultando em divergências em um conjunto semântico de dados. Pode ocorrer também de uma mesma terminologia estar sendo utilizada com signicados diferentes, por aplicações distintas.
• Para tratar esses conflitos, existe a camada de ontologia que define mecanismos capazes de
estabelecer um padrão entre as páginas da web.
Ontologia• A utilização das triplas <objeto, atributo, valor> garante
a definição únicas dos conceitos, no entanto, o mesmo conceito pode ser expresso de forma diferente e em linguagens diferentes.
• Por exemplo, duas bases de dados podem armazenar os mesmos conceitos utilizando terminologias distintas. Para que a informação existente possa ser processada e relacionada é necessário que exista uma definição da relação entre os conceitos contidos em diferentes documentos. Para isso são utilizadas as ontologias.
• Uma ontologia pode ser definida como um conjunto de termos de conhecimento incluindo o vocabulário, interconexões semânticas e simples regras de inferência.
Ontologia
• Com a introdução de ontologias, passa-se de um domínio de conceitos isolados na web, próprios de cada aplicação específica, para conceitos universalmente conhecidos entre as aplicações. As ontologias permitem expressar regras permitindo a um programa deduzir signicados da informação guardados no documento, ou seja, permitem manipular os termos de uma maneira mais útil e eficiente.
• Uma ontologia envolve a definição de uma hierarquia de classes e subclasses para os conceitos envolvidos.
Arquitetura
Camada Lógica
Dados
Regras de Inferência
CamadadeEstrutura
Camada Lógica
Web Semântica
CamadadeOntologia
…
Arquitetura• É através da camada lógica que são possíveis os
relacionamentos de informação e as inferências de conhecimento da Web Semântica. As regras de inferência fornecem aos agentes(programas) poder de raciocinar sobre os termos e seus significados, que foram definidos na camada esquema e de raciocinar a respeito dos relacionamentos entre os conceitos segundo a sua definição na camada ontologia.
• Os agentes são sistemas computacionais capazes de interagir autonomamente para atingir os objetivos do seu criador. Os agentes possuem algumas características como autonomia, reatividade (percebem
• o ambiente tomam as decisões), têm comportamento colaborativo, possuem objetivos, são flexíveis, sociáveis e têm a capacidade de aprender.
• A Web Semântica possuirá vários agentes interagindo entre si, compreendendo, trocando ontologias, adquirindo novas capacidades racionais quando adquirirem novas ontologias e formando cadeias
Fonte: Tim Berners-Lee, James Hendler, and Ora Lassila. The semantic web. Scientic American, pages 35{43, May 2001.
Arquitetura da Web Semântica Parte 2
AÍlton Pedro
Arquitetura Web Semântica
• Primeira proposta divulgada publicamente no ano de 2000 pelo W3C (Tim Berners-Lee)
• Preocupação em desenvolver linguagens computacionais para estruturar recursos e descrever aspectos semânticos
• Não era suficiente apenas descrever os recursos informacionais sintaticamente, mas desenvolver tecnologias que permitissem descrever o significado das informações
• URI (Uniform Resource Identifier) – forma como identificamos um ponto de conteúdo na internet
Linguagens de Representação de Recursos Informacionais
• Principais Linguagens Computacionais Padronizadas pelo W3C:– XML (Extensible Markup Language)
– RDF (Resource Description Framework)
– OWL (Web Ontology Language)
Linguagens de Representação de Recursos Informacionais
• XML– Objetivos da linguagem:
1. Direta e Objetiva2. Suporta ampla gama de
aplicativos3. Compatível com SGML4. Fácil de desenvolver
programas5. Número de recursos
adicionais mínimos6. Documetos legíveis e claros7. Preparado rapidamente8. Design formal e conciso9. Documentos fáceis de
serem criados10. A concisão na marcação é
de importância mínima
Importante característica: permite aoautor do documento a definição dassuas próprias marcas, o que confereao XML habilidades semânticas quepossibilitam melhorias nos processosde recuperação e disseminação dainformação
• RDF– Modelo para descrever
recursos– Baseado em um modelo
de grafo no lugar de árvore
– Sintaxe: (Sujeito, Predicado, Objeto)
– Usa XML como sintaxe– Melhora a descoberta, o
acesso e o gerenciamento das informações da Web
Linguagens de Representação de Recursos Informacionais
• OWL– Recomendada pelo W3C para o
desenvolvimento de ontologias, definida a partir de:
• RDF e RDF Schema• DAML+OIL
– Estrutura baseada nos seguintes elementos básicos:
• Namespaces; Cabeçalhos; Classes; Indivíduos; Propriedades; Restrições
Linguagens de Representação de Recursos Informacionais
• OWL lite:– versão simplificada de OWL– oferece primariamente hierarquias e restrições
simples• OWL DL
– aumenta a expressividade, mantendo decidibilidade
• OWL Full– expressividade, sem garantia de decidibilidade
Linguagens de Representação de Recursos Informacionais
CONTEXTUALIZANDO A WEB SEMÂNTICA NO ÂMBITO DA CIÊNCIA DA INFORMAÇÃO
José Aniceto
• A Ciência da Informação tem como um de seus objetivos estudar e desenvolver métodos e técnicas para o melhoramento dos processos de armazenamento, organização e recuperação de informação, considerando também aspectos científicos e profissionais que obtém dimensões sociais e humanas, que se apresenta com maior relevância do que os aspectos tecnológicos.
CONTEXTUALIZANDO A WEB SEMÂNTICA NO ÂMBITO DA CIÊNCIA DA
INFORMAÇÃO.
DIFERENTES CONCEITOS AO SE REFERIR AO TERMO INFORMAÇÃO.
CIÊNCIA DA INFORMAÇÃO X
CIÊNCIA DA COMPUTAÇÃO.
• No âmbito da área de Ciência da Informação é evidente a presença de componentes semânticos em tal processo, pois para o usuário as informações recuperadas possuem um significado semântico implícito.
• O projeto Web Semântica baseia-se na possibilidade de categorias que possam ser interpretadas automaticamente pelos computadores.
ONTOLOGIAS COMO INSTRUMENTOS DE REPRESENTAÇÃO
• Com o grande aumento na quantidade de recursos informacionais, é necessário relaciona-los e organiza-los de maneira adequada, com isso observo-se a necessidade de instrumentos que possibilitem descrever níveis de relacionamentos mais avançados e que possam ser processados de forma automatizada por computadores os quais vem sendo denominados como ontologias.
MODELOS CONCEITUAIS AUTOMÁTICOS
• As ontologias funcionam de maneira muito parecida com o nosso cérebro.
• Usando as ontologias uma máquina simples pode fazer coisas que humanos fazem no dia-a-dia, com limites, é claro.
• Uma ontologia pode assumir vários formatos, mas necessariamente deve incluir um vocabulário de termos e alguma especificação de seu significado. Elas devem obter em seu campo conceitos e uma indicação de como estes deverão estar inter-relacionados.
TESAURO X
ONTOLOGIAS
A Web Semântica sob o prisma da Ciência da Informação
José Ricardo
A Web Semântica sob o prisma da ciência da Informação
• Objetivo da Web Semântica• A contribuição da Ciência da Informação para o projeto
web semântico.• Exemplo:
• O formato Marc 21 (Machine Readable Cataloging) Originado em 1998 e a sua versão em XML.
Exemplos
• É possível identificar atualmente alguns projetos que têm como
• principal objetivo o desenvolvimento de novas tecnologias no âmbito de bibliotecas
• digitais utilizando-se das tecnologias relacionadas ao projeto Web Semântica, entre os
• quais pode-se destacar o JeromeDL e o MarcOnt.
JeromeDL
• Reconnecting Digital Libraries and the Semantic Web, o projeto JeromeDL
• consiste de uma biblioteca digital de código aberto baseada nas principais tecnologias presentes no projeto Web Semântica, permitindo a descrição de recursos a partir da linguagem computacional RDF e a realização de buscas semânticas baseadas em ontologias, possibilitando uma melhora considerável na precisão das buscas e um maior nível de interoperabilidade.
http://library.deri.ie/
MarcOnt
• o principal objetivo deste projeto é criar uma ontologia capaz de tornar-se um padrão de representação de informações para bibliotecas digitais, possibilitando a descrição dos aspectos semânticos dos conteúdos e favorecendo a integração de bibliotecas. Assim, está em fase de desenvolvimento e avaliação a ontologia MarcOnt, desenvolvida utilizando-se a linguagem OWL, de modo que se espera que tal ontologia seja compatível com o formato MARC 21, permitindo que as descrições semânticas possam ser convertidas para outros formatos, possibilitando grande interoperabilidade e o reaproveitamento das bases de conhecimento, por meio da incorporação de outras ontologias que sigam os mesmos critérios.
http://www.marcont.org/
Ciência da Informação e Web semântica
• Juntas propriciam meios mais adequados de representar e organizar conteúdos informacionais, possibilitando responder de maneira mais eficiente às buscas realizadas pelos usuários finais.
RECUPERAÇÃO DA INFORMAÇÃO NAWEB SEMÂNTICA
Clodoaldo Santos& Rafael Rodrigo
OBJETIVOS
DIMINUIR O CAOS DE EXCESSO DE INFORMAÇÕES
ESTRUTURAR A INFORMAÇÃO COM BASES SÓLIDAS
DINAMIZAR O RELACONAMENTO HOMEM-MÁQUINA
MELHOR QUALIDADE DE REVOCAÇÃO E PRECISÃO
O QUE FALTA ?
CONHECIMENTO MAIS APROFUNDADO DOS PROGRMADORES DE PÁGINAS WEB
ADOÇÃO DA TECNOLOGIA PELOS SITES DE BUSCA
INFRA ESTRUTURA PARA ARMAZENAMENTO E DISSEMINAÇÃO
ATUALIZAÇÃO DA WEB
COMO RECUPERAR
• Estratégia:Arte de aplicar os meios disponíveis com vista à consecução de objetivos
específicos.
• Busca:Procura com o fim de encontrar alguma coisa
• Tática:Processo empregado para sair-se bem num empreendimento
ESTRATÉGIA DE BUSCA
Oldroyd & Citroen (1977) identificaram três grandes etapas para decisão no processo de planejamento da estratégia de busca: decisão sobre qual a melhor base de dados para um determinado tema; decisão referente à seleção dos termos de busca e sua adequação para a base a ser consultada; decisão sobre a formulação lógica da estratégia.
É sabido que a maior parte dos usuários, ao realizar uma busca, acredita possuir uma boa compreensão dos próprios problemas. A tarefa do intermediário junto aos sistemas é ajudar o usuário a definir e especificar o problema, com termos e conceitos que são apropriados para aquela fonte de informação específica que será utilizada para a busca. Ou seja, os termos usados em uma determinada área do conhecimento devem ajustar-se àqueles usados nas bases de dados mais relevantes que serão consultadas.
ESTRATÉGIA DE BUSCA – ETAPAS
• 1ª Etapa: Discussão do tópico geral da pesquisa
É útil perguntar como os resultados da busca irão ser aplicados, porque a resposta pode mudar a direção ou a ênfase da busca.
• 2ª Etapa: Conhecimentos básicos sobre os instrumentos de busca
Isto pode ajudar a definir o tópico e gerar uma lista das palavras chave a serem usadas na estratégia de busca
• 3ª Etapa: Formulação “provisória” da estratégia de busca
A busca estará bem definida se o intermediário for capaz de assegurar a
recuperação de todas as citações para vários termos. Porem, é desejável que para informações mais complexas, seja usado pelo menos dois conjuntos de termos.
ESTRATÉGIA DE BUSCA – ETAPAS
• 4ª Etapa: Compreensão da lógica dos conjuntos de termos
O uso da interseção de mais de dois conjuntos de termos deve ser evitado, porque, embora os resultados possam ser bem precisos, eles serão limitadores e podem provocar uma possível exclusão de informações relevantes.
• 5ª Etapa: Interdisciplinaridade
Realizar a expansão da busca em outros campos, aumentando consequentemente as possibilidades de documentos de interesse virem a ser recuperados.
ESTRATÉGIA DE BUSCA – ETAPAS
• 6ª Etapa: Eliminação de termos indesejados
Os termos indesejados serão excluídos do resultado da busca depois de se ver o impacto dessa exclusão no resultado total da busca. A decisão para excluir termos nem sempre é fácil e, visualmente, depende da especificação do tópico.
• 7ª Etapa: Especificação dos parâmetros relevantes para a execução da busca
Todos os parâmetros relevantes devem ser considerados para se determinarem os limites da busca. Deve a busca ser limitada nos anos mais recentes? Quais as bases de dados que provavelmente irão fornecer as mais relevantes citações? O pesquisador quer todas as citações que mencionam uma autoridade particular ou somente as que são autorizadas por uma pessoa particular?
FUNCIONALIDADE
UTILIZAR O VASTO REPOSITÓRIO DE INFORMAÇÕES DISPONÍVEL DA WEB DE MANEIRA MAIS PRODUTIVA, ÁGIL E SIGNIFICATIVA.
PROPORCIONAR AO INDIVÍDUO TUDO DE FORMA ORDENADA, MINIMIZANDO A QUANTIDADE DE BUSCA.
Referências• RAMALHO, Rogério Aparecido Sá. Web Semântica: aspectos
interdisciplinares da gestão de recursos informacionais no âmbito da Ciência da Informação;
• The New York Time, Museu belga revela a internet de papel do início do século 20;
• OLIVEIRA, Rosa Maria Vivona Bertolini. Web Semântica: Novo desafio para os profissionais da informação;
• http://www.abranet.org.br/historiadainternet/ocomeco.htm• Bogo, Kellen Cristina. A História da Internet
Referências