39
La nuova “visione” del web: il Web Semantico

La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Embed Size (px)

Citation preview

Page 1: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

La nuova “visione” del web: il Web Semantico

Page 2: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Il WWW

• Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse:

– Documenti testuali e multimediali– Basi i dati– Servizi: prenotazioni on-line, web assistant..– Programmi

Page 3: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Problema: accessibilità dei contenuti

• Come si accede alle informazioni sul web?

– Parole chiave digitate dall’utente

– Voci di una barra di navigazione

• Nel primo caso l’efficacia dipende dagli algoritmi usati dai motori di ricerca (che studieremo in questo corso e anche nel corso algoritmi per il web)

• Nel secondo caso, l’efficacia dipende da chi ha organizzato e programmato i contenuti del sito

• In entrambe le situazioni, molto dipende dal potere evocativo di una espressione

Page 4: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Parole e contenuti

• Una espressione, o parola chiave, può avere un rapporto generico con il contenuto cui si riferisce

• Nel caso di navigazione per parole-chiave, ambiguità: Es: albero: informatica, botanica, nautica?

• Nel caso di barra di navigazione, come classificare un documento che parla di finanziamento del governo alle società calcistiche in pericolo di fallimento? Sport, politica, finanza?

• Nel web, i collegamenti che consentono di raggiungere i contenuti sono intrinsecamente deboli, troppo generici e vaghi.

Page 5: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Collegamenti sintattici e semantici

• Le pagine web sono collegate sintatticamente mediante indici che localizzano la URL della pagina. Questi collegamenti permettono di identificare la pagina in modo univoco, e sono dunque piuttosto solidi (problemi di aggiornamento a parte)

• La debolezza sta nei collegamenti semantici, cioè quelli che dovrebbero definire il significato della pagina indicizzata.

• Oltre a portare in un determinato luogo (pagina web) un collegamento dovrebbe descrivere il luogo in cui porta. Questa funzione è la capacità semantica.

Page 6: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

L’organizzazione delle pagine web attualmente

Page 7: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Organizzazione delle pagine con collegamenti semantici

Page 8: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Collegamenti Semantici: ne avete già sentito parlare!

• Quando interroghiamo una base di dati, ad esempio una biblioteca on-line, possiamo fare ricerche piuttosto raffinate, ad esempio, chiedere “quali autori hanno scritto almeno due libri sull’Information Retrieval”

• L’utente può formulare una richiesta che imponga precise relazioni (“almeno due libri sull’IR”), e tali relazioni sono stabilite fra concetti (“autore” e “libro”) anziché fra parole chiave (non si ricerca la stringa “autore” o “libro”).

• Questo è possibile perché esiste uno schema del DB, cioè un modello ed un insieme di regole che stabiliscono coe debbano essere organizzati i dati

Page 9: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Schemi e collegamenti in un DB: esempio

BOOK

ISBN authorstitle

name birthdate

Schema 1

AUTHOR

name books

title ISBN

Schema

birthdate

Page 10: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Web Semantico: utilizzare schemi per descrivere dominii di

informazione• Tre livelli

– I dati (le pagine web)– I metadati o annotazioni (collegamenti semantici)– Lo schema (o ontologia) del dominio

“..voli fra Parigi e New York

PLACE

CITY

AirPort

kind_of

near

Buildingkind_of

Page 11: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Ma cosa è il Semantic Web?• Il “Semantic Web Wedding Cake”

Page 12: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Livello 1: URIURI: universal resource identifierinclude URL (locator, cioè ftp:.., http://…)e URN un nome che identifica la risorsa

Unicode: assegna un unico numero ad ogni carattere, indipendentemente dalla piattaforma, programma, linguaggio. Lo Standard Unicode è stato adottato da: Apple, HP, IBM, JustSystem,Microsoft, Oracle, SAP, Sun, Sybase, Unisys ecc.http://www.unicode.org/

Page 13: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Livello 2: annotazione

Annotazione: entità artificiali utilizzate per descrivere un documento, una sua parte, o una intera collezione. Una annotazione è una coppia (l,def) dove l è un label (ad esempio creator) e def è una definizione più o meno formalmente espressa del suo significato ed uso intesoAnnotazione manuali: linguaggi di mark-up (XML, xmlschema..), metadatiAnnotazione automatica: metodi di elaborazione automatica del linguaggio naturale

Page 14: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Linguaggi di mark-up: XML eXtensible Mark-up Language

<header>

<title>Extensible Markup Language (XML)</title>

<version>1.0 (Second Edition)</version>

<w3c-doctype>W3C Recommendation</w3c-doctype>

<pubdate><day>&draft.day;</day><month>&draft.month;

</month><year>&draft.year;</year></pubdate>

</author>

<author role="2e" diff="add"><name>Eve

Maler</name><affiliation>Sun Microsystems,

Inc. </affiliation><email

href="mailto:[email protected]">[email protected]

</email>

</author>

<abstract>

<p>The Extensible Markup Language (XML) is a subset of

SGML that is completely described in this document. Its

goal is to enable generic SGML to be served, received, and

processed on the Web in the way that is now possible with

HTML.

XML has been designed for ease of implementation and for

interoperability with both SGML and HTML.</p>

</abstract>

Page 15: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Livello 3: RDF resource description framework

Un modello generale (e minimalista) per fare asserzioni semantiche su oggetti WebUn “oggetto Web” è detto Risorsa. Una Risorsa è qualsiasi entità identificabile mediante un URI (Uniform Resource Identifier); ciò include pagine Web e documenti XML. Una Proprietà è una risorsa che ha un nome, per esempio Author o Title. In molti casi, l’informazione è contenuta nel nome stesso.

Page 16: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

RDF (2)

• Uno Statement (asserzione) è la combinazione di una Risorsa, una Proprietà ed un valore. Queste parti sono note come soggetto, predicato e oggetto dell’asserzione.

Per esempio: "The Author of http://www.textuality.com/RDF/Why.html is Tim Bray."

Il valore può essere una stringa, es: "Tim Bray" oppure un’altra risorsa, per esempio:

"The Home-Page of

http://www.textuality.com/RDF/Why.html is

http://www.textuality.com."

Page 17: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

RDF (3)

Queste proprietà astratte possono essere espresse usando ancora XML,

Es:

</rdf:Description>

<rdf:Description ID="MotorVehicle">

<rdf:type resource="http://www.w3.org/2000/01/rdf-schema#Class"/>

<rdfs:subClassOf rdf:resource="http://www.w3.org/2000/01/rdf- schema#Resource"/>

</rdf:Description>

<rdf:Description ID="Truck">

<rdf:type resource="http://www.w3.org/2000/01/rdf-schema#Class"/>

<rdfs:subClassOf rdf:resource="#MotorVehicle"/>

</rdf:Description>

Page 18: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Problemi dei linguaggi di annotazione

RDF e XML hanno una semantica non esplicita, ed inoltre l’annotazione è manuale. Gran parte del testo è annotata con “tag” generiche, che non descrivono il contenuto.

<abstract>

<p>The Extensible Markup Language (XML) is a subset of SGML that is completely described in this document. Its goal is to enable generic SGML to be served, received, and processed on the Web in the way that is now possible with HTML.</p> …..

</abstract>

Page 19: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Il livello ontologico

Uno modello semantico (schema) ed un insieme di regole per “ragionare” sui dati a disposizione.

Page 20: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Cos’è un’ontologia?• Alcune definizioni:

– Filosofia: “a systematic explanation of being”

– Neches : “…defines the basic terms and relations including the vocabulary of a topic area as well as the rules for combining terms and relations to define extensions to the vocabulary.”

– Gruber, la più citata: “…an explicit specification of a conceptualization”

– Borst, leggermente modificata:“…a formal specification of a shared conceptualization”

– Guarino: “…a logical theory which gives an explicit, partial account of a conceptualization”

Page 21: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Definizione formale di ontologia (1)

• 1. un insieme di concetti (detti anche classi),• 2. le interconnessioni semantiche tra essi (dette

relazioni concettuali, o attributi semantici) • 3. un eventuale livello logico che permetta di inferire

nuovi fatti a partire da quelli codificati all’interno della risorsa (ad esempio, un insieme di assiomi o micro-teorie).

Page 22: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Definizione formale di ontologia (2)

• Un’ontologia O può dunque essere definita come una tripla (C, R, A) dove:– C è un insieme di concetti– R è un insieme di relazioni concettuali tali che ogni relazione in R

è definita su CC.– A è un insieme di assiomi (se A = l’ontologia non è

assiomatizzata)

Page 23: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Definizione formale di ontologia (3)

• Si osservi che gli insiemi C ed R individuano un grafo G = (V, E) tale che:– V C

– E = { (c1, c2) CC : S R : (c1, c2) S }

• e una funzione di etichettatura l : CC 2R tale che l(c1, c2) = { S R : (c1, c2) S }.

Page 24: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Esempio• Un semplice esempio di ontologia è il seguente: O’ =

(C’, R’, A’) dove:– C’ = { Entità, Oggetto, Persona, Meccanico, Automobile, Motore }

– R’ = { è-un, ha-un, ripara }

– A’ = { “a Automobile m Meccanico : ripara(p, a)” })

– è-un = { (Oggetto, Entità), (Persona, Entità), (Meccanico, Persona), (Automobile, Oggetto), (Motore, Oggetto) }

– ha-un = { (Automobile, Motore) }

– ripara = { (Meccanico, Automobile) }

Page 25: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Esempio (2)

Entity

PersonObject

MechanicCarEngine

Kind_of

Kind_ofKind_of

Kind_of Kind_of

Has_part Repair

Page 26: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

A cosa servono le ontologie?• Migliorare la comunicazione fra persone e organizzazioni• Favorire l’ interoperabilità fra sistemi

– Condividere metodi di modellazione, paradigmi, linguaggi, e strumenti software

– Supportare l’ ingegnerizzazione di sistemi IT (Information Technology):» favorire riusabilità/condivisibilità : condivisione delle rappresentazioni

formali» migliorare la ricerca: usata come meta-data per indicizzare databases

documenti e sistemi informativi in generale» esprimere specifiche: aiuta nell’identificare i requirements di un sistema IT

» acquisire conoscenza (generalizzare ragionare)

Page 27: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

SCHEDA REF 820TITOLO Discorso di Raffaello Lambruschini in occasione dell’adunanza tenuta in onore di

Vincenzo GiobertiDESCRIZIONE / Raffaello Lambruschini. - [documento manoscritto]. -

5 luglio 1853. - 8 c. AUTORE Lambruschini, Raffaello INVENTARIO 58671 COLLOCAZIONE Busta 81.1394 NOTA Pubbl. in Atti, C. 31, 1853, p. 344. KEYWORDS Accademia dei Georgofili

Annotazioni o metadati

UN CASO D’USO

Page 28: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Un caso d’uso: recupero/classificazione di documenti

• Supponiamo che ad un documento storico digitalizzato sia associato il seguente descrittore: “Discorso di Raffaello Lambruschini in occasione dell’adunanza tenuta in onore di Vincenzo Gioberti”.

• Un sistema di information retrieval “classico” può estrarre le 4 parole chiave: discorso, Raffaello Lambruschini , adunanza, Vincenzo Gioberti, e con queste indicizzare il documento.

• Sinonimia: Ad esempio, la parola adunanza ha, nella lingua italiana, i seguenti sinonimi : riunione, adunata, incontro, raduno, assemblea, consiglio, convegno, simposio, compagnia, folla, assembramento, e molti (se non tutti) fra questi termini avrebbero potuto essere usati dall’autore della descrizione in esame.

• Una annotazione del tipo “meeting, get toghether” (il nome dell’annotazione è tratto dal lessico semantico on-line WordNet 1.7 ) potrebbe riconoscere l’equivalenza di tutti questi termini.

Page 29: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

SCHEDA REF 820

TITOLO Discorso/ORAL_COMMUNICATION di Raffaello Lambruschini/PEDAGOGIST in occasione

dell’adunanza/MEETING tenuta in onore di Vincenzo Gioberti/PHYLOSOPHER

DESCRIZIONE / Raffaello Lambruschini. - [documento manoscritto]. - 5 luglio 1853. - 8 c.

AUTORE Lambruschini, Raffaello INVENTARIO 58671 COLLOCAZIONE Busta 81.1394 NOTA Pubbl. in Atti, C. 31, 1853, p. 344. KEYWORDS Accademia dei Georgofili

STUDIOSO

FILOSOFO PEDAGOGO

COMUNICAZIONE_ORALE

COMUNICAZIONE

RELAZIONE_SOCIALE

INCONTRO

GRUPPO_SOCIALE

GRUPPO

Vincenzo Gioberti Raffaello Lambruschinidiscorso

adunanza

Page 30: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

STUDIOSO

FILOSOFO PEDAGOGO

COMUNICAZIONE_ORALE

COMUNICAZIONE

RELAZIONE_SOCIALE

INCONTRO

GRUPPO_SOCIALE

GRUPPO

Vincenzo Gioberti Raffaello Lambruschini

DESCRIZIONE: comunicazione_orale, filosofo:Vincenzo_Gioberti, pedagogo: Raffaello_Lambruschini, incontro

Core Ontology

Page 31: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Un caso d’uso: navigazione assistita e storytelling

“Nel 1483 approntò i disegni preparatori per il m onumentoequestre in bronzo a Francesco Sforza e f irmò il contratto conla conf raternita della Concezione per la Vergine delle rocce.Nella "Vergine delle rocce" dipinta tra il 1483 e il 1486, lacomposizione a piramide del gruppo costituito dalla Madonna, dalBambino, da S. Giovannino e da ll'Angelo è a rricchita emovimentata dall' incrociarsi di linee convergenti indicate daigesti. La tecnica dello sf umato, il morbidissimo chiaroscurotipico di Leonardo si sovrappone al disegno, e n e sfalda icontorni. “

Chiaroscuro

In drawing, painting, and the graphic arts, the rendering of forms through a balanced contrast between light and dark areas. The technique which was introduced during the Renaissance, is effective in creating an illusion of depth and space around the principal figures in a composition. ...Painting techniques

Page 32: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Una mini-ontologia delle tecniche pittoriche (estratta automaticamente)

technique

rendering

etching acquaint

combining

photomontage

framing

mattingcolor-stencil-painting

serigraph

painting

collage

chiaroscuro

stipple

gouache

monotype

conservationframing

drymountassemblage

Page 33: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Esempio 2: Interoperabilità fra servizi web

Sistema di prenotazioni ferroviarie (Agente 2)

KB2- Città di partenza- Città di arrivo- Data di partenza- Ora del giorno- ……..

Segreteria Elettronica (Agente 1)

- Riunione- Orario di lavoro- Sede di lavoro- Viaggio- ……..

KB1

ma: cittaDiPartenza := sedeDiLavoro;cittaDiArrivo := luogoDelMeeting;

E se cittaDiPartenza si chiama CittaPart o DepartureCity?

Page 34: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Interoperabilità fra servizi web (2)

Top Ontology

Agent 1 Ontology Agent 2 Ontology

City

Sede-Lavoro Città_PartCittà_Arr

Page 35: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Esempio 3 E-learning

Un messaggio inviato dal destinatario al mittente per informarlo che il frame è

arrivato correttamente

SebRow - sviluppato nel progetto 2003-2004

Page 36: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

E-learning

• E’ un “servizio” quindi in realtà rientra nel caso dell’esempio precedente

• Navigazione “semantica” dei corsi

• Classificazione materiale didattico

• Reperimento di materiale didattico (ricerca per concetti)

Page 37: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

• Ontologie (punti di vista) non identici, ma condivisi

• Sistemi già esistenti: possono mantenere la propria struttura, ma se vogliono comunicare devono avere un protocollo comune

• Ontologie esistenti compatibili in parte: per ora, quindi, soluzione parziale

• Poichè necessita anche comunicazione uomo-macchina, condivisione delle ontologie anche tra macchine ed esseri umani

Problemi (alcuni..)

Page 38: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Ontologie: Problemi di ricerca

• E’ un’area di ricerca che si è molto espansa nell’ultima decade

Ontologie

Costruzione

Traduzione

Aggiornamento

Riuso

Valutazione

Apprendimento

Mapping

Fusione

Gestione

Strumenti Strumenti

Metodologie Metodologie

Linguaggi Linguaggi

Page 39: La nuova visione del web: il Web Semantico. Il WWW Un (immensa) rete di collegamenti fra pagine che contengono svariati tipi di risorse: –Documenti testuali

Prossime lezioni

• Linguaggi

• Metodologie

• Strumenti

• Esempi di ontologie esistenti