59
INICIATIVA BARCELONA OPEN DATA EL VALOR D’OBRIR LES DADES Datos enlazados curso 1.6 Docente: Álvaro Sicilia @ alvarosiciliago

Curs 1.6. Dades Enllaçades (14/02)

Embed Size (px)

Citation preview

Page 1: Curs 1.6. Dades Enllaçades (14/02)

INICIATIVA BARCELONA OPEN DATA EL VALOR D’OBRIR LES DADES

Datos enlazadoscurso 1.6

Docente:Álvaro Sicilia @alvarosiciliago

Page 2: Curs 1.6. Dades Enllaçades (14/02)

OBJECTIVO DE LA SESIÓN

● Al final de la sesión seréis capaces de:

● Definir que son los datos enlazados y la web semántica

● Identificar datos enlazados y saber navegar por ellos

● Describir recursos en la web (RDF)

● Identificar tecnologías para enlazar datos

Facultar a los participantes para enlazar datos abiertos y su uso

Datos enlazados

Page 3: Curs 1.6. Dades Enllaçades (14/02)

ÍNDICE

1. Introducción a los datos enlazados2. De datos abiertos a datos enlazados3. Uso de vocabularios y DCAT4. Enlazar datos abiertos5. Describir recursos en la web6. Como transformar datos abiertos a RDF7. Tecnologías utilizadas en la web semántica8. Consultar datos enlazados

Page 4: Curs 1.6. Dades Enllaçades (14/02)

¿Que son los datos enlazados?Preparad una definición de este concepto

Actividad colectiva

Tiempo: 2 minutos

Actividad

Page 5: Curs 1.6. Dades Enllaçades (14/02)

* http://www.w3c.es/Divulgacion/GuiasBreves/LinkedData** http://www.w3c.es/Divulgacion/GuiasBreves/WebSemantica

Los Datos Enlazados es la forma que tiene la Web Semántica de vincular los distintos datos que están distribuidos en la Web, de forma que se referencian de la misma forma que lo hacen los enlaces de las páginas web*

La Web Semántica es una Web extendida, dotada de mayor significado en la que cualquier usuario en Internet podrá encontrar respuestas a sus preguntas de forma más rápida y sencilla gracias a una información mejor definida**

INTRODUCCIÓN A LOS DATOS ENLAZADOS

Page 6: Curs 1.6. Dades Enllaçades (14/02)

INTRODUCCIÓN A LOS DATOS ENLAZADOS

Page 7: Curs 1.6. Dades Enllaçades (14/02)

INTRODUCCIÓN A LOS DATOS ENLAZADOS

Page 8: Curs 1.6. Dades Enllaçades (14/02)

IMDB Wikipedia

¿Lugar de nacimiento de Harrison Ford?

¿Número de habitantes de

Chicago?

DE DATOS ABIERTOS A DATOS ENLAZADOS

¿Preguntas sobre una fuente de datos?

ActoresCiudades

Page 9: Curs 1.6. Dades Enllaçades (14/02)

IMDB Wikipedia

¿Qué actores que han nacido en poblaciones de más de 2 millones de habitantes?

DE DATOS ABIERTOS A DATOS ENLAZADOS

¿Preguntas complejas sobre múltiples fuentes de datos?

ActoresCiudades

Page 10: Curs 1.6. Dades Enllaçades (14/02)

IMDB Wikipedia

Usar la Web como una única gran base de datos global Movernos de una Web de documentos a una Web de

Datos

DE DATOS ABIERTOS A DATOS ENLAZADOS

¿Preguntas complejas sobre múltiples fuentes de datos?

Page 11: Curs 1.6. Dades Enllaçades (14/02)

DE DATOS ABIERTOS A DATOS ENLAZADOS

1. Usar URIs como nombres de las cosas2. Usar HTTP URIs, para que cualquiera los pueda consultar3. Cuando alguien consulta una URI, proporcionar

información útil en lenguajes estándar (RDF, SPARQL) 4. Incluir enlaces a otras URIs

* http://www.w3.org/DesignIssues/LinkedData.html

Los Cuatro principios de la Web de datos enlazados (Tim Berners Lee, 2006)*

Page 12: Curs 1.6. Dades Enllaçades (14/02)

★ publicar los datos en la Web (en cualquier format) con una licencia abierta

★★ publicar los datos estructurados (ex: en Excel lugar de una imagen con datos)

★★★ publicar daots utilizando formatos no propietarios (ex:: CSV en lugar de Excel)

★★★★ utilitzar URIs para apuntar a cosas★★★★

★Enlazar datos con otros datos

DE DATOS ABIERTOS A DATOS ENLAZADOS

Las 5 estrellas de Tim Berners Lee

Page 13: Curs 1.6. Dades Enllaçades (14/02)

DE DATOS ABIERTOS A DATOS ENLAZADOS

Wikipedia

Page 14: Curs 1.6. Dades Enllaçades (14/02)

DE DATOS ABIERTOS A DATOS ENLAZADOS

Wikipedia

Page 15: Curs 1.6. Dades Enllaçades (14/02)

Navegar por portales de datos abiertos y enlazados listar los diferentes portales Actividad individual

Tiempo: 15 minutos

Actividad

Page 16: Curs 1.6. Dades Enllaçades (14/02)

DE DATOS ABIERTOS A DATOS ENLAZADOS

¿Cómo publicar datos enlazados?

1. Empezar por un plan

5. Mantenerl

o

2. Seleccion

ar los datos

4. Publicación3.

Creación de un

dataset

Proceso de los datos abiertos

Page 17: Curs 1.6. Dades Enllaçades (14/02)

DE DATOS ABIERTOS A DATOS ENLAZADOS

¿Cómo publicar datos enlazados?

Aplicar un formato abierto

Capturar los

metadatosAplicar una

licencia abiertaRevisar el dataset

Page 18: Curs 1.6. Dades Enllaçades (14/02)

Actividad¿Que es un vocabulario?Preparad una definición de este concepto

Actividad colectiva

Tiempo: 2 minutos

Page 19: Curs 1.6. Dades Enllaçades (14/02)

USO DE VOCABULARIOS Y DCAT

¿Qué es un vocabulario?

Los vocabularios definen los conceptos y relaciones utilizados para describir y representar un área de interés.

Definition taken from: http://www.w3.org/standards/semanticweb/ontology

Page 20: Curs 1.6. Dades Enllaçades (14/02)

USO DE VOCABULARIOS Y DCAT

¿Dónde está el vocabulario?

Adaptado de ODI Madrid

Page 21: Curs 1.6. Dades Enllaçades (14/02)

USO DE VOCABULARIOS Y DCAT

¿Dónde está el vocabulario?

Ciudad Fecha creación Fundación Long Lat Alt Estado

Adaptado de ODI Madrid

Page 22: Curs 1.6. Dades Enllaçades (14/02)

Actividad¿Crear un vocabulario para el dataset de ejemplo?

Actividad en grupos

Tiempo: 5 minutos

Page 23: Curs 1.6. Dades Enllaçades (14/02)

USO DE VOCABULARIOS Y DCAT

¿Dónde está el vocabulario?

Estado

Ciudad

Ciudad Fecha creación Fundación Long Lat Alt Estado

Adaptado de ODI Madrid

Page 24: Curs 1.6. Dades Enllaçades (14/02)

USO DE VOCABULARIOS Y DCAT

¿Dónde está el vocabulario?

RAE:1. f. Conjunto de edificios y calles, regidos por un ayuntamiento, cuya población densa y numerosa se dedica por lo común a actividades no agrícolas.

RAE:5. m. País soberano, reconocido como tal en el orden internacional, asentado en un territorio determinado y dotado de órganos de gobierno propios..

Estado

Ciudad

Ciudad Fecha creación Fundación Long Lat Alt Estado

Adaptado de ODI Madrid

Page 25: Curs 1.6. Dades Enllaçades (14/02)

Uso de vocabularios y DCAT

¿Dónde está el vocabulario?

City Creation date Establishment date Long Lat Alt State

Pertenece aEstado

Ciudad

Ciudad Fecha creación Fundación Long Lat Alt Estado

Adaptado de ODI Madrid

Page 26: Curs 1.6. Dades Enllaçades (14/02)

USO DE VOCABULARIOS Y DCAT

¿Dónde está el vocabulario?

- fecha creación- fundación

City Creation date Establishment date Long Lat Alt State

Pertenece aEstado

Ciudad

Ciudad Fecha creación Fundación Long Lat Alt Estado

Adaptado de ODI Madrid

Page 27: Curs 1.6. Dades Enllaçades (14/02)

USO DE VOCABULARIOS Y DCAT

¿Dónde está el vocabulario?

Punto

Localización

- longitud- latitud- altitud

- fecha creación- fundación

City Creation date Establishment date Long Lat Alt State

Pertenece aEstado

Ciudad

Ciudad Fecha creación Fundación Long Lat Alt Estado

Adaptado de ODI Madrid

Page 28: Curs 1.6. Dades Enllaçades (14/02)

USO DE VOCABULARIOS Y DCAT

¿Dónde está el vocabulario?

• Un vocabulario puede representar muchos datasets

• Los vocabularios son utilizados para integrar o armonizar datos de diferentes fuentes (CSV, bases de datos, páginas web…)

Punto

Localización

- longitud- latitud- altitud

- fecha creación- fundación

City Creation date Establishment date Long Lat Alt State

Pertenece aEstado

Ciudad

Ciudad Fecha creación Fundación Long Lat Alt Estado

Adaptado de ODI Madrid

Page 29: Curs 1.6. Dades Enllaçades (14/02)

USO DE VOCABULARIOS Y DCAT

Ventajas de utilizar vocabularios

Un vocabulario:

- Da contexto (para moverse de datos a información)

- Facilita reutilización de los datos- Reduce ambigüedad- Facilita la integración- Facilita el mantenimiento

Adaptado de ODI Madrid

Page 30: Curs 1.6. Dades Enllaçades (14/02)

USO DE VOCABULARIOS Y DCAT

Data Catalog Vocabulary (DCAT)

DCAT es una especificación (vocabulario) para la descripción de catálogos de datos en la red. La especificación oficial ha sido elaborada por el W3C, basada en algunos proyectos anteriores.

DCAT-AP (Application Profile) es una especificación basada en DCAT para describir datasets del sector público en Europa.

Page 31: Curs 1.6. Dades Enllaçades (14/02)

USO DE VOCABULARIOS Y DCAT

Data Catalog Vocabulary (DCAT)

https://www.w3.org/TR/vocab-dcat/

Page 32: Curs 1.6. Dades Enllaçades (14/02)

USO DE VOCABULARIOS Y DCAT

Data Catalog Vocabulary (DCAT)Identificadores temáticos DCAT-AP Identificadores temáticos NTI-RISP

ciencia-tecnologia         Ciencia-tecnologia                

Agricultura, pesca, forestal y alimentación Medio-rural-pesca

Economía y finanzas       

EconomíaComercioHacienda       

Educación, cultura y deporte       

EducaciónCultura-ocioDeporte                    

Energía Energía   

Medio ambiente Medio-ambiente

Gobierno y sector público        Sector-publico

Salud        Salud        

Asuntos internacionales

Justicia, sistema legal y seguridad Legislacion-justiciaSeguridad       

Regiones y ciudades        Urbanismos-infraestructurasVivienda   

Población y sociedad DemografíaSociedad-bienestar            Empleo   

Transporte Transporte

IndustriaTurismo

Las temáticas de DCAT-AP han sido traducidas de su original en inglés. Esta equivalencia es realizada por Alberto Abella y no hay una guía oficial refrendándola

Page 33: Curs 1.6. Dades Enllaçades (14/02)

USO DE VOCABULARIOS Y DCAT

Vocabulary of Interlinked Datasets (VoiD)

http://richard.cyganiak.de/2011/gld/gld-dcat-and-void.pdf

Page 34: Curs 1.6. Dades Enllaçades (14/02)

ENLAZAR DATOS ABIERTOS

¿Cómo publicar datos enlazados?

Aplicar un formato abierto

Capturar los metadatos

Aplicar una licencia abierta

Revisar el dataset

Identificar enlaces con

otros datasets

Enlazar las instancias de los

diferentes datasets

Page 35: Curs 1.6. Dades Enllaçades (14/02)

ENLAZAR DATOS ABIERTOS

Enlazando datos abiertos

Procedimiento1. Identificar aquellos conceptos cuyos individuos

puedan ser enlazados dado su interés y potencial.

2. Identificar qué conjuntos de datos pueden contener instancias de los conceptos identificados previamente.

3. Seleccionar las herramientas mas adecuadas para llevar a cabo el enlazado (semi) automático.

4. Ejecutar estas herramientas sobre las fuentes de datos para obtener los correspondientes enlaces.

Adaptado de ODI Madrid

Page 36: Curs 1.6. Dades Enllaçades (14/02)

ENLAZAR DATOS ABIERTOS

Enlazando datos abiertos• Alineación por valores. Determinar cuando dos

valores de dos propiedades expresados de forma diferente son equivalentes

• Alineación por instancias. Determinar si dos instancias son equivalentes

• De acuerdo a las descripciones disponibles para dichas instancias

• Basado en agregación de técnicas de alineación de valores, transitividad de owl:sameAs, mapeos de ontologías, etc.

• Alineación por dataset. Utilizando un conjunto de potenciales mapeos de individuos entre dos datasets

Adaptado de ODI Madrid

Page 37: Curs 1.6. Dades Enllaçades (14/02)

Actividad¿Enlazar los datasets de ejemplo?

Actividad en grupos

Tiempo: 15 minutos

Page 38: Curs 1.6. Dades Enllaçades (14/02)

Actividad¿Enlazar los datasets de ejemplo?

Ciudad Fecha creación Fundación Long Lat Alt Estado

Nombre Latitud LongitudMadrid -10,074 -67,052Barcelona -10,943 -69,563Valencia -11,016 -68,748Bilbao -9,820 -67,952Tarragona -10,570 -67,674Toledo -7,631 -72,673Sevilla -11,028 -68,745Zaragoza -8,936 -70,542Cáceres -8,911 -73,111

Name Capital GeometryPortugal Lisbon …Italy Rome …Greece Athens …Spain Madrid …France Paris …Germany Berlin …Belgium Brussels …

Page 39: Curs 1.6. Dades Enllaçades (14/02)

DESCRIBIR RECURSOS EN LA WEB

Describir la semántica de la información de manera procesable por máquinas

Resource Description Framework (RDF)

Tripletas: Sujeto – Predicado – Objecto

Harrison Ford es un Actor

Harrison Ford mide 1,85

Harrison Ford nació en Chicago

Page 40: Curs 1.6. Dades Enllaçades (14/02)

ActividadEscribir triples para el dataset de ejemplo

Actividad en grupos

Tiempo: 15 minutos

Page 41: Curs 1.6. Dades Enllaçades (14/02)

DESCRIBIR RECURSOS EN LA WEB

Describir la semántica de la información de manera procesable por máquinas

Resource Description Framework (RDF)

Tripletas: Sujeto – Predicado – Objecto

http://es.dbpedia.org/resource/Harrison_Ford

http://es.dbpedia.org/ontology/Actor

https://www.w3.org/1999/02/22-rdf-syntax-ns#type

Page 42: Curs 1.6. Dades Enllaçades (14/02)

DESCRIBIR RECURSOS EN LA WEB

Describir la semántica de la información de manera procesable por máquinas

Resource Description Framework (RDF)

Tripletas: Sujeto – Predicado – Objecto

http://es.dbpedia.org/resource/Harrison_Ford

http://es.dbpedia.org/resource/Chicago

http://es.dbpedia.org/ontology/birthPlace

Page 43: Curs 1.6. Dades Enllaçades (14/02)

DESCRIBIR RECURSOS EN LA WEB

Describir la semántica de la información de manera procesable por máquinas

Resource Description Framework (RDF)

Tripletas: Sujeto – Predicado – Objecto

http://es.dbpedia.org/resource/Harrison_Ford

“1.85”

http://es.dbpedia.org/ontology/height

Page 44: Curs 1.6. Dades Enllaçades (14/02)

height

DESCRIBIR RECURSOS EN LA WEB

Describir la semántica de la información de manera procesable por máquinas

Resource Description Framework (RDF)

Tripletas: Sujeto – Predicado – Objecto

…/Harrison_Ford

“1.85”…/Chicago

…Actor

type

birthPlace

Page 45: Curs 1.6. Dades Enllaçades (14/02)

height

height

DESCRIBIR RECURSOS EN LA WEB

Describir la semántica de la información de manera procesable por máquinas

Resource Description Framework (RDF)

Tripletas: Sujeto – Predicado – Objecto

…/Harrison_Ford

“1.85”…/Chicago

…Actor

type …/RobinWilliams

“1.7”

type

birthPlace

Page 46: Curs 1.6. Dades Enllaçades (14/02)

COMO TRANSFORMAR DATOS ABIERTOS A RDF

dataset Rdf dump Triple store Consultas

Sparql

dataset SQL RDF wrapper

Consultas Sparql

• Rápido• No actualizado• Materializado

• No es rápido• Actualizado• Bases de datos relacionales

Mapeos R2RML

Page 47: Curs 1.6. Dades Enllaçades (14/02)

COMO TRANSFORMAR DATOS ABIERTOS A RDF

http://www.semanco-tools.eu/map-on

Page 48: Curs 1.6. Dades Enllaçades (14/02)

COMO TRANSFORMAR DATOS ABIERTOS A RDF

http://www.semanco-tools.eu/map-on

Page 49: Curs 1.6. Dades Enllaçades (14/02)

COMO TRANSFORMAR DATOS ABIERTOS A RDF

http://wifo5-03.informatik.uni-mannheim.de/pubby/

Page 50: Curs 1.6. Dades Enllaçades (14/02)

COMO TRANSFORMAR DATOS ABIERTOS A RDF

http://silkframework.org/

Page 51: Curs 1.6. Dades Enllaçades (14/02)

TECNOLOGÍAS UTILIZADAS EN LA WEB SEMÁNTICA

Triple stores:- Virtuoso Universal Server virtuoso.openlinksw.com- RDF4J www.rdf4j.org

Publicar datos- Pubby wifo5-03.informatik.uni-mannheim.de/

pubby- Elda github.com/epimorphics/elda

Enlazar datos- Silk silkframework.org- Limes aksw.org/Projects/LIMES.html

W3C listado de recursos:www.w3.org/wiki/TaskForces/CommunityProjects/LinkingOpenData/SemWebClients

Page 52: Curs 1.6. Dades Enllaçades (14/02)

CONSULTAR DATOS ENLAZADOS

Breve introducción a SPARQL

SELECT Distinct ?Concepto

WHERE { ?x a ?Concepto.}

http://es.dbpedia.org/sparql

SELECT Distinct ?x

WHERE { ?x a <http://schema.org/Airport>.}

Page 53: Curs 1.6. Dades Enllaçades (14/02)

ActividadConsulta datos enlazados

Actividad individual

Tiempo: 10 minutos

Page 54: Curs 1.6. Dades Enllaçades (14/02)

EJEMPLO DE HERRAMIENTA QUE UTILIZA DATOS ENLAZADOS

Page 55: Curs 1.6. Dades Enllaçades (14/02)

EJEMPLO DE HERRAMIENTA QUE UTILIZA DATOS ENLAZADOS

Page 56: Curs 1.6. Dades Enllaçades (14/02)

EJEMPLO DE HERRAMIENTA QUE UTILIZA DATOS ENLAZADOS

Page 57: Curs 1.6. Dades Enllaçades (14/02)

OBJECTIVO DE LA SESIÓN

● Ara sois capaces de:

● Definir que son los datos enlazados y la web semántica

● Identificar datos enlazados y saber navegar por ellos

● Describir recursos en la web (RDF)

● Identificar tecnologías para enlazar datos

Facultar a los participantes para enlazar datos abiertos y su uso

Datos enlazados

Page 58: Curs 1.6. Dades Enllaçades (14/02)

Tiempo para preguntas

Page 59: Curs 1.6. Dades Enllaçades (14/02)

Autoevaluación

https://goo.gl/forms/zviBRVgbpniTFY9k2