Web Semântica Apresentação de Slides

WEB SEMÂNTICARecuperação da Informação

Prof. Fábio Assis PinhoProf. Fábio Assis Pinho.

UNIVERSIDADE FEDERAL DE PERNAMBUCO

Recuperação da Informação:

Prof. Fábio Assis PinhoApresentação:

•Ailton Pedro

•Aurélio Fernando

•Clodoaldo Santos

•Corina Nascimento

•José Aniceto

•José Ricardo

•Rafael Rodrigo

WEB WEB SEMÂNTICASEMÂNTICA

Maio / 2009

“A Web Semântica é uma extensão da Web atual, onde a informação possui um

significado claro e bem definido, possibilitando uma melhor interação entre

computadores e pessoas”.

WEB WEB SEMÂNTICASEMÂNTICA

Berners Lee.

A História da Web

Corina Nascimento

A História da Internet

Fatos históricos• Biblioteca de Alexandria, criada por Ptolomeu I (289

a.C.);• Mundaneum, idealizado por Paul Otlet e Henri de La

Fontaine, eles começaram a coletar dados de todos os livros, revistas, artigos já publicados, usando cartões de índice de 7 a 12 cm (o que havia de mais avançado na tecnologia de armazenamento)criando um banco de dados com mais de 12 milhões de entradas individuais ;

• Memex, máquina capaz de estocar grande quantidade de informação de forma fácil que permitisse uma rápida recuperação. Nunca foi construída, embora Vannevar Bush a enxergasse como a extensão natural das tecnologias existentes em 1945;

• Projeto Xanadu, criado por Theodore Nelson imaginando uma imensa rede de informações acessível em tempo real, contendo todo o saber literário e científico do mundo.

A Evolução da Internet

• Durante a Guerra Fria, o departamento de defesa dos EUA, pensou em um sistema que interligasse vários pontos, de modo que não centralizasse o comando,(Anos 60/70);

• 1969 surge a ARPAnet (Advanced Research Projects Agency), rede que interligava originalmente vários centros de pesquisa;

• Início dos anos 80, foi desenvolvida uma nova utilidade para a ARPnet, interligar laboratórios e universidade nos EUA, surgiu o nome Internet;

• Final dos anos 80, a Internet passa a ser vista como um eficiente veículo de comunicação mundial, onde cientistas e acadêmicos passaram a utilizá-la mais intensamente (existia apenas em formato de texto, antigos arquivos Gopher;

• O Protocolo de comutação de pacotes originais usado pela ARPAnet era o NCP (Network Control Protocol), mudado para o TCP/IP (Transfer Control Protocol/Internet Protocol) desenvolvido pela UNIX.

• Anos 90, Tim Berners-Lee com sua equipe de pesquisadores, teve a idéia de desenvolver um sistema de hipertexto que deveria funcionar em redes de computadores;

• 1991, esses pesquisadores tiveram a idéia de criar a Word Wide Web (maior parte das informações em formato de texto, com poucos desenhos)

• 1992 foi criado o Mosaic (capaz de interpretar gráficos e realizar navegações através de links), primeiro navegador para Internet, para sistema X Windows

• Em seguida apareceram versões do Mosaic para Macintosh e Microsoft Windows;

• Nos dias atuais os padrões com o qual as páginas são programadas são definidas pela W3C (World Wide Web Consortium), consórcio liderado por Tim Beeners-Lee, do qual fazem parte empresas como Microsoft, Apple, Sun e Netscape.

A Evolução da Internet

• A 1ª fase restringiu-se ao âmbito acadêmico;• Em 1987 pesquisadores e técnicos da

EMBRATEL se reuniram na USP, para discutir a montagem de uma rede que interligasse universidades brasileiras e internacionais;

• Em 1989 foi criada a RNP (Rede Nacional de Pesquisa), com o objetivo inicial de construir uma infraestrutura de rede nacional de âmbito acadêmico;

• Em 1991, a FAPESP (Fundação de Amparo à Pesquisa do Estado de São Paulo) estabeleceu a primeira conexão utilizando o padrão TCP/IP, permitindo a administração de domínio “.br” e a distribuição de endereços IP para todo o país.

A Evolução da Internet no Brasil

A Evolução da Internet no Brasil

• Em 1995, teve início o processo de abertura da Internet no país, por meio da EMBRATEL e da RNP;

• Em 1996, depois de autorizado pelo ministro das Comunicações, a Internet brasileira deixou de ser um privilégio de universidades e passou a ser explorada comercialmente.

Números

• Tempo que novas tecnologias levaram para atingir 50 milhões de usuários no mundo:– Rádio 38 anos– Computador 16 anos– Televisão 13 anos– TV a cabo 10 anos– Internet 4 anos

Estrutura e componentes da WEB

• O desenvolvimento da WEB, só foi possível a partir da definição de padrões abertos;

• Ao utilizar padrões disponíveis para todos, tornou-se mais fácil a adaptação das diferentes redes ou diferentes equipamentos utilizados;

• Já que sua proposta é a interconexão de redes de diversos tipos;

• Entre os padrões abertos, pode-se destacar o HTTP (Hypertext Transfer Protocol), que pode ser entendido como um conjunto de regras definidas para a comunicação entre os componentes da WEB.

• Outro componente fundamental na Internet é o Identificador Único de Recurso(URI), codifica nomes dos recurso e respectivos endereços na Internet

• Um URI é um padrão que pode ser representado pelos conceitos de URL (Localizador Único de Recurso) e URN (Nome Único de Recurso)


• URI é formado por basicamente três partes:

Protocolo

Nome do Recurso

Localização do Recurso (Indicando o Servidor)

200.146.172.1

http://www.ufpe.br/dci/site


• Para disponibilização de recursos informacionais no ambiente WEB, são utilizados documentos informacionais chamados páginas WEB;

• Estas páginas são desenvolvidas utilizando linguagens computacionais denominadas linguagens de marcação;

• Ao invés de utilizar comandos e funções para realização de tarefas, utiliza “tags”, para marcar o conteúdo do documento;


• A HTML (Hypertext Markup Language´) é considerada como a linguagem padrão para o desenvolvimento de páginas da WEB

• Derivada da linguagem SGML (Standard Generalized Markup Language)

• Utiliza o padrão ASCII, considerado como um formato de texto simples, que pode ser identificado de qualquer computador;

• A HTML representa os dados de forma simples, priorizando o modo de apresentação de conteúdos.Não possibilita a descrição de estruturas semânticas;

• Para marcar um trecho de texto informando que é um parágrafo, em HTML deve utilizar os tags <P> e </P> no início e no final do parágrafo.

• Um fator de limitação da HTML é que ela impossibilita a atribuição de significados aos conteúdos das páginas, trazendo assim um grande volume de dados não relevantes, dificultando a recuperação de informações. Falta de extensibilidade;


WEB SEMÂNTICA

• Vem se apresentando como a solução para ordenar o caos informacional existente na web;

• Possibilitará a compreensão e o gerenciamento dos conteúdos armazenados na web;

• O fantasma da perda de informação ou mensagens do tipo “Error 404: Not Found” deverão inexistir, ou estar sob controle;

• Para implementação ou reorganização da WEB SEMÂNTICA há um contingente de pesquisadores trabalhando no W3C, em países como EUA, França e Japão, com a missão de alavancar a web ao seu potencial máximo.

Arquitetura da Web Semântica Parte 1

Aurélio Fernando

IntroduçãoA internet tornou-se um fenômeno mundial, sendo possível acessar informações em diversas partes do mundo instantaneamente. O volume destas informações alcançaram números impressionantes nos dias atuais.Entretanto o vasto número de documentos Web e a falta de padronização dessas informações originaram um problema para os usuários na hora de navegar na Internet e assim achar as informações desejadas. Esse problema é chamado de Information Overload. Esse problema é caracterizado quando uma pessoa, ao realizar uma consulta, obtém um número excessivo de informações como resposta e não consegue absorvê-las ou tratá-las, tendo que examinar todos os documentos resultantes para encontrar as informações desejadas. Como a maior parte das informações disponíveis na Internet, está disposta em linguagem natural, sendo compreensíveis apenas por humanos, houve a necessidade de uma semântica que permitisse uma padronização das informações sendo possível o processamento dessas informações por humanos e máquinas, surgindo assim a idéia do desenvolvimento da Web Semântica.

O termo "Semântica" é definido como sendo o estudo do sentido das palavras.

Arquitetura• A Web Semântica introduz estrutura e significado ao

conteúdo disponível na internet, visando transformar uma rede de documentos em uma rede de dados, compreensível tanto para humanos quanto para computadores, de maneira a possibilitar que os últimos cooperem melhor durante a realizacão de tarefas, ou quando da realização de um serviço aos usuários.

• O principal desafio da Web Semântica é criar uma linguagem que consiga expressar o significado e ao mesmo tempo estabelecer regras para processar esse significado de forma a inferir novos dados e regras. As regras para o processamento do significado devem ser exportadas para a web afim de permitir que outros sistemas inteligentes possam interagir.

Na proposta de desenvolvimento da Web Semântica é sugerida uma arquitetura de 3 camadas:

Arquitetura

•A camada de Estrutura: que estrutura os dados e define seu significado;

•A camada ontologia: que define as relações entre os dados;

•A camada lógica: que define mecanismos para fazer inferências sobre os dados.

Dados

Regras de I nferência

Cam ada deEstrutura

Cam ada Lógica

W eb Sem ântica

Cam ada deOntologia

…

Arquitetura• Disposição das

camadas

Arquitetura

Dados

Regras de Inferência

CamadadeEstrutura

Camada Lógica

Web Semântica

CamadadeOntologia

…

Camada de Estutura

ArquiteturaA camada A camada de Estrutura:de Estrutura:• A camada de estrutura provê uma forma de definir os dados

do documento e o significado associado a esses dados. Trata também da estruturação e disposição dos dados de forma que os programas que rodam na web possam fazer inferência a partir dos mesmos.

Para que haja a representacão do conhecimento são necessarias três condições:

Interoperabilidade estrutural: Permite que os dados sejam representados de forma distinta, permitindo especicar tipos e possíveis valores para cada forma de representação;

Interoperabilidade sintática: Constitui- se de regras precisas que permitem o intercâmbio de dados na Web;

Interoperabilidade Semântica: Possibilita a compreensão e associação entre os dados.

Para atender esses requisitos, utiliza-se XML e RDF.

Arquitetura

Dados


CamadadeEstrutura

Camada Lógica

Web Semântica

CamadadeOntologia

…

Camada de Ontologia

Arquitetura

A camada OntologiaA camada Ontologia::

• Duas bases de dados podem utilizar terminologias diferentes para referir-se a mesma informação, resultando em divergências em um conjunto semântico de dados. Pode ocorrer também de uma mesma terminologia estar sendo utilizada com signicados diferentes, por aplicações distintas.

• Para tratar esses conflitos, existe a camada de ontologia que define mecanismos capazes de

estabelecer um padrão entre as páginas da web.

Ontologia• A utilização das triplas <objeto, atributo, valor> garante

a definição únicas dos conceitos, no entanto, o mesmo conceito pode ser expresso de forma diferente e em linguagens diferentes.

• Por exemplo, duas bases de dados podem armazenar os mesmos conceitos utilizando terminologias distintas. Para que a informação existente possa ser processada e relacionada é necessário que exista uma definição da relação entre os conceitos contidos em diferentes documentos. Para isso são utilizadas as ontologias.

• Uma ontologia pode ser definida como um conjunto de termos de conhecimento incluindo o vocabulário, interconexões semânticas e simples regras de inferência.

Ontologia

• Com a introdução de ontologias, passa-se de um domínio de conceitos isolados na web, próprios de cada aplicação específica, para conceitos universalmente conhecidos entre as aplicações. As ontologias permitem expressar regras permitindo a um programa deduzir signicados da informação guardados no documento, ou seja, permitem manipular os termos de uma maneira mais útil e eficiente.

• Uma ontologia envolve a definição de uma hierarquia de classes e subclasses para os conceitos envolvidos.

Arquitetura

Camada Lógica

Dados


CamadadeEstrutura

Camada Lógica

Web Semântica

CamadadeOntologia

…

Arquitetura• É através da camada lógica que são possíveis os

relacionamentos de informação e as inferências de conhecimento da Web Semântica. As regras de inferência fornecem aos agentes(programas) poder de raciocinar sobre os termos e seus significados, que foram definidos na camada esquema e de raciocinar a respeito dos relacionamentos entre os conceitos segundo a sua definição na camada ontologia.

• Os agentes são sistemas computacionais capazes de interagir autonomamente para atingir os objetivos do seu criador. Os agentes possuem algumas características como autonomia, reatividade (percebem

• o ambiente tomam as decisões), têm comportamento colaborativo, possuem objetivos, são flexíveis, sociáveis e têm a capacidade de aprender.

• A Web Semântica possuirá vários agentes interagindo entre si, compreendendo, trocando ontologias, adquirindo novas capacidades racionais quando adquirirem novas ontologias e formando cadeias

Fonte: Tim Berners-Lee, James Hendler, and Ora Lassila. The semantic web. Scientic American, pages 35{43, May 2001.

Arquitetura da Web Semântica Parte 2

AÍlton Pedro

Arquitetura Web Semântica

• Primeira proposta divulgada publicamente no ano de 2000 pelo W3C (Tim Berners-Lee)

• Preocupação em desenvolver linguagens computacionais para estruturar recursos e descrever aspectos semânticos

• Não era suficiente apenas descrever os recursos informacionais sintaticamente, mas desenvolver tecnologias que permitissem descrever o significado das informações

• URI (Uniform Resource Identifier) – forma como identificamos um ponto de conteúdo na internet

Linguagens de Representação de Recursos Informacionais

• Principais Linguagens Computacionais Padronizadas pelo W3C:– XML (Extensible Markup Language)

– RDF (Resource Description Framework)

– OWL (Web Ontology Language)


• XML– Objetivos da linguagem:

1. Direta e Objetiva2. Suporta ampla gama de

aplicativos3. Compatível com SGML4. Fácil de desenvolver

programas5. Número de recursos

adicionais mínimos6. Documetos legíveis e claros7. Preparado rapidamente8. Design formal e conciso9. Documentos fáceis de

serem criados10. A concisão na marcação é

de importância mínima

Importante característica: permite aoautor do documento a definição dassuas próprias marcas, o que confereao XML habilidades semânticas quepossibilitam melhorias nos processosde recuperação e disseminação dainformação

• RDF– Modelo para descrever

recursos– Baseado em um modelo

de grafo no lugar de árvore

– Sintaxe: (Sujeito, Predicado, Objeto)

– Usa XML como sintaxe– Melhora a descoberta, o

acesso e o gerenciamento das informações da Web


• OWL– Recomendada pelo W3C para o

desenvolvimento de ontologias, definida a partir de:

• RDF e RDF Schema• DAML+OIL

– Estrutura baseada nos seguintes elementos básicos:

• Namespaces; Cabeçalhos; Classes; Indivíduos; Propriedades; Restrições


• OWL lite:– versão simplificada de OWL– oferece primariamente hierarquias e restrições

simples• OWL DL

– aumenta a expressividade, mantendo decidibilidade

• OWL Full– expressividade, sem garantia de decidibilidade


CONTEXTUALIZANDO A WEB SEMÂNTICA NO ÂMBITO DA CIÊNCIA DA INFORMAÇÃO

José Aniceto

• A Ciência da Informação tem como um de seus objetivos estudar e desenvolver métodos e técnicas para o melhoramento dos processos de armazenamento, organização e recuperação de informação, considerando também aspectos científicos e profissionais que obtém dimensões sociais e humanas, que se apresenta com maior relevância do que os aspectos tecnológicos.

CONTEXTUALIZANDO A WEB SEMÂNTICA NO ÂMBITO DA CIÊNCIA DA

INFORMAÇÃO.

DIFERENTES CONCEITOS AO SE REFERIR AO TERMO INFORMAÇÃO.

CIÊNCIA DA INFORMAÇÃO X

CIÊNCIA DA COMPUTAÇÃO.

• No âmbito da área de Ciência da Informação é evidente a presença de componentes semânticos em tal processo, pois para o usuário as informações recuperadas possuem um significado semântico implícito.

• O projeto Web Semântica baseia-se na possibilidade de categorias que possam ser interpretadas automaticamente pelos computadores.

ONTOLOGIAS COMO INSTRUMENTOS DE REPRESENTAÇÃO

• Com o grande aumento na quantidade de recursos informacionais, é necessário relaciona-los e organiza-los de maneira adequada, com isso observo-se a necessidade de instrumentos que possibilitem descrever níveis de relacionamentos mais avançados e que possam ser processados de forma automatizada por computadores os quais vem sendo denominados como ontologias.

MODELOS CONCEITUAIS AUTOMÁTICOS

• As ontologias funcionam de maneira muito parecida com o nosso cérebro.

• Usando as ontologias uma máquina simples pode fazer coisas que humanos fazem no dia-a-dia, com limites, é claro.

• Uma ontologia pode assumir vários formatos, mas necessariamente deve incluir um vocabulário de termos e alguma especificação de seu significado. Elas devem obter em seu campo conceitos e uma indicação de como estes deverão estar inter-relacionados.

TESAURO X

ONTOLOGIAS

A Web Semântica sob o prisma da Ciência da Informação

José Ricardo

A Web Semântica sob o prisma da ciência da Informação

• Objetivo da Web Semântica• A contribuição da Ciência da Informação para o projeto

web semântico.• Exemplo:

• O formato Marc 21 (Machine Readable Cataloging) Originado em 1998 e a sua versão em XML.

Exemplos

• É possível identificar atualmente alguns projetos que têm como

• principal objetivo o desenvolvimento de novas tecnologias no âmbito de bibliotecas

• digitais utilizando-se das tecnologias relacionadas ao projeto Web Semântica, entre os

• quais pode-se destacar o JeromeDL e o MarcOnt.

JeromeDL

• Reconnecting Digital Libraries and the Semantic Web, o projeto JeromeDL

• consiste de uma biblioteca digital de código aberto baseada nas principais tecnologias presentes no projeto Web Semântica, permitindo a descrição de recursos a partir da linguagem computacional RDF e a realização de buscas semânticas baseadas em ontologias, possibilitando uma melhora considerável na precisão das buscas e um maior nível de interoperabilidade.

http://library.deri.ie/

http://library.deri.ie/

MarcOnt

• o principal objetivo deste projeto é criar uma ontologia capaz de tornar-se um padrão de representação de informações para bibliotecas digitais, possibilitando a descrição dos aspectos semânticos dos conteúdos e favorecendo a integração de bibliotecas. Assim, está em fase de desenvolvimento e avaliação a ontologia MarcOnt, desenvolvida utilizando-se a linguagem OWL, de modo que se espera que tal ontologia seja compatível com o formato MARC 21, permitindo que as descrições semânticas possam ser convertidas para outros formatos, possibilitando grande interoperabilidade e o reaproveitamento das bases de conhecimento, por meio da incorporação de outras ontologias que sigam os mesmos critérios.

http://www.marcont.org/

http://www.marcont.org/

Ciência da Informação e Web semântica

• Juntas propriciam meios mais adequados de representar e organizar conteúdos informacionais, possibilitando responder de maneira mais eficiente às buscas realizadas pelos usuários finais.

RECUPERAÇÃO DA INFORMAÇÃO NAWEB SEMÂNTICA

Clodoaldo Santos& Rafael Rodrigo

OBJETIVOS

DIMINUIR O CAOS DE EXCESSO DE INFORMAÇÕES

ESTRUTURAR A INFORMAÇÃO COM BASES SÓLIDAS

DINAMIZAR O RELACONAMENTO HOMEM-MÁQUINA

MELHOR QUALIDADE DE REVOCAÇÃO E PRECISÃO

O QUE FALTA ?

CONHECIMENTO MAIS APROFUNDADO DOS PROGRMADORES DE PÁGINAS WEB

ADOÇÃO DA TECNOLOGIA PELOS SITES DE BUSCA

INFRA ESTRUTURA PARA ARMAZENAMENTO E DISSEMINAÇÃO

ATUALIZAÇÃO DA WEB

COMO RECUPERAR

• Estratégia:Arte de aplicar os meios disponíveis com vista à consecução de objetivos

específicos.

• Busca:Procura com o fim de encontrar alguma coisa

• Tática:Processo empregado para sair-se bem num empreendimento

ESTRATÉGIA DE BUSCA

Oldroyd & Citroen (1977) identificaram três grandes etapas para decisão no processo de planejamento da estratégia de busca: decisão sobre qual a melhor base de dados para um determinado tema; decisão referente à seleção dos termos de busca e sua adequação para a base a ser consultada; decisão sobre a formulação lógica da estratégia.

É sabido que a maior parte dos usuários, ao realizar uma busca, acredita possuir uma boa compreensão dos próprios problemas. A tarefa do intermediário junto aos sistemas é ajudar o usuário a definir e especificar o problema, com termos e conceitos que são apropriados para aquela fonte de informação específica que será utilizada para a busca. Ou seja, os termos usados em uma determinada área do conhecimento devem ajustar-se àqueles usados nas bases de dados mais relevantes que serão consultadas.

ESTRATÉGIA DE BUSCA – ETAPAS

• 1ª Etapa: Discussão do tópico geral da pesquisa

É útil perguntar como os resultados da busca irão ser aplicados, porque a resposta pode mudar a direção ou a ênfase da busca.

• 2ª Etapa: Conhecimentos básicos sobre os instrumentos de busca

Isto pode ajudar a definir o tópico e gerar uma lista das palavras chave a serem usadas na estratégia de busca

• 3ª Etapa: Formulação “provisória” da estratégia de busca

A busca estará bem definida se o intermediário for capaz de assegurar a

recuperação de todas as citações para vários termos. Porem, é desejável que para informações mais complexas, seja usado pelo menos dois conjuntos de termos.


• 4ª Etapa: Compreensão da lógica dos conjuntos de termos

O uso da interseção de mais de dois conjuntos de termos deve ser evitado, porque, embora os resultados possam ser bem precisos, eles serão limitadores e podem provocar uma possível exclusão de informações relevantes.

• 5ª Etapa: Interdisciplinaridade

Realizar a expansão da busca em outros campos, aumentando consequentemente as possibilidades de documentos de interesse virem a ser recuperados.


• 6ª Etapa: Eliminação de termos indesejados

Os termos indesejados serão excluídos do resultado da busca depois de se ver o impacto dessa exclusão no resultado total da busca. A decisão para excluir termos nem sempre é fácil e, visualmente, depende da especificação do tópico.

• 7ª Etapa: Especificação dos parâmetros relevantes para a execução da busca

Todos os parâmetros relevantes devem ser considerados para se determinarem os limites da busca. Deve a busca ser limitada nos anos mais recentes? Quais as bases de dados que provavelmente irão fornecer as mais relevantes citações? O pesquisador quer todas as citações que mencionam uma autoridade particular ou somente as que são autorizadas por uma pessoa particular?

FUNCIONALIDADE

UTILIZAR O VASTO REPOSITÓRIO DE INFORMAÇÕES DISPONÍVEL DA WEB DE MANEIRA MAIS PRODUTIVA, ÁGIL E SIGNIFICATIVA.

PROPORCIONAR AO INDIVÍDUO TUDO DE FORMA ORDENADA, MINIMIZANDO A QUANTIDADE DE BUSCA.

Referências• RAMALHO, Rogério Aparecido Sá. Web Semântica: aspectos

interdisciplinares da gestão de recursos informacionais no âmbito da Ciência da Informação;

• The New York Time, Museu belga revela a internet de papel do início do século 20;

• OLIVEIRA, Rosa Maria Vivona Bertolini. Web Semântica: Novo desafio para os profissionais da informação;

• http://www.abranet.org.br/historiadainternet/ocomeco.htm• Bogo, Kellen Cristina. A História da Internet

http://www.abranet.org.br/historiadainternet/ocomeco.htm

Referências

Education

Web Semântica Apresentação de Slides