Transcript
Page 1: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication

of Linked Open Governmental Data

Kelli de Faria Cordeiro1, Fabricio Firmino de Faria1, Bianca de Oliveira Pereira1,2, André Freitas2, Cristiano Expedito Ribeiro1, João Vitor Villas Boas Freitas1, Ana Christina

Bringuente3, Lucas de Oliveira Arantes3, Rodrigo Calhau3, Veruska Zamborlini3, Maria Luiza Machado Campos1, Giancarlo Guizzardi3

1Graduate Program in Informatics (PPGI) Federal University of Rio de Janeiro (UFRJ) – Brazil

2Digital Enterprise Research Institute (DERI) National University of Ireland – Galway – Ireland

3Ontology and Conceptual Modeling Research Group (NEMO) – Computer Science Department – Federal University of Espírito Santo (UFES) – Brazil

Page 2: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data

Agenda

• Motivação e contextualização

• Cenário Atual em Dados Abertos Interligados (LOD)

• Projeto LinkedDataBR

• ETL Workflow

• Tratamento Semântico Incremental

• Estudo de Caso

• Considerações finais

2

Page 3: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data

Motivação e contextualização

3

Page 4: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data

Estão abertos?

4

Motivação e contextualização

Page 5: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data 5

CAPES

CNPq

RNP

Uso conjunto é ainda um desafio!

Motivação e contextualização

Page 6: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data

• Interoperabilidade e Integração de dados na Web ainda requerem considerável esforço

– Mesmo dentro de uma organização!

. Tivemos SGBD por mais de meio século, mas conseguimos a integração que se pretendia? O que faltou ?

– E agora, na Web: • Distribuídos, heterogêneos, em grande escala, altamente

visíveis, grande número de diferentes usuários, …

6

Motivação e contextualização

Page 7: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data

Linked Open Data (LOD)

• LOD pode ser considerado uma abordagem mais simplista de uso de tecnologias da Web Semântica

• Baseada em triplas (RDF) para representar os dados de forma realmente “granular”

– Facilita a interligação

– Acompanhado de um descritor

• Abordagem pay-as-you-go

7

Page 8: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data

Linked Open Data (LOD)

– O que vem a ser Dados Abertos Interligados? • Utilização ampla de padrões

• Representação de dados em um grão mínimo (triplas RDF)

– Flexibilidade nas ligações entre itens de dados

• Tem a interoperabilidade em sua essência

– RDF: Resource DESCRIPTION Framework

» Criado para interoperar METADADOS!

–Descritores estão na base da proposta

8

Page 9: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data

Linked Open Data (LOD)

– Uma maneira “nova” de publicar e consumir dados!

• O poder das ligações tipadas

• O poder da colaboração – Consumidores podem ser publicadores também!

• Mais e mais dados sendo gerados e potencialmente “ligáveis” – Sensores e Web das Coisas

• Dados e metadados sendo explorados juntos em novas aplicações

• Consulta E Navegação E Busca!

9

Page 10: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data

Dados publicados como LOD

Até quando conseguiremos representar esta nuvem? 10

265 datasets - 32 bilhões de triplas - 42% de dados de governo Setembro de 2011

Page 11: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data

Cenário Atual - Internacional

• Muitas iniciativas de governo

– Governo Britânico, Estados Unidos, Espanha, etc.

– Diferentes abordagens

– Entrando em fase mais madura

• Muitas iniciativas do setor privado

– BBC, New York Times, ...

• Muitas iniciativas em e-Ciência – Dados genômicos, dados de meio-ambiente,...

• Forte envolvimento da área acadêmica – Consórcio W3C, Sir Tim Berners Lee (MIT)

– DERI/NUI (Irlanda), Univ. Berlim (Alemanha), Univ. de Madri (Espanha)

– Projeto LOD2

11

Page 12: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data

Cenário Atual - Internacional

• Grande diversidade de ferramentas – Ainda sendo experimentadas

– Foco em atividades específicas de publicação, consumo e colaboração

– Ainda razoável esforço requerido para seu uso conjunto

• Abordagem liberal

– Prioridade para “expor” os dados e depois ir complementando sua descrição

– Uso de ontologias ainda incipiente

– Processo de publicação muito artesanal

– Qualidade do dado publicado ainda pouco rastreável

• Entrando em fase de amadurecimento – Maior preocupação com semântica e descritores

– Frameworks para integração de ferramentas sendo discutidos

12

Page 13: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data

Cenário Atual - Nacional

• Inicialmente evoluindo sobre pesquisas e aplicações da Web Semântica e Ontologias

• PUC-RJ, UFRJ, UFES, PUC-RJ, PUC-RS, …

• Interesse crescente no Governo:

– Inicialmente uma certa confusão com dados abertos

– Acordo assinado entre o Brasil, EUA e mais 6 países

– Tema do CONSEGI deste ano

– Ministério do Planejamento : • Cria o INDA – Infraestrutura Nacional de Dados Abertos

• Baseada em LOD e uso de ontologias

– Apoio do W3C Brasil e CGI/BR • Cria o GT Ontologias

– Iniciativas experimentais em LOD • Experimentos pontuais -> simples conversão de dados e interfaces atraentes

• Tecnologia ainda pouco conhecida

13

Page 14: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data

LinkedDataBR

Linked

Page 15: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data

Nossa Abordagem

• Alguns domínios requerem uma abordagem sistemática que garanta:

– Maior controle do processo

– Manutenção da consistência dos dados sendo publicados

• Este é o caso de:

– Dados Governamentais

– Dados de e-Ciência

• Necessário adotar uma abordagem de “gestão de dados”

15

Linked

Page 16: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data

LinkedDataBR - FOCO

• Foco – no apoio ao processo de publicação

– na qualidade do dado

• Característica da solução:

– Plataforma integrada e flexível

– Maximização no reuso de ferramentas existentes (software livre)

– Explorar: • Gerência de metadados

• Apoio ao processo com ferramenta de workflow (ETL)

• Tratamento Semântico

Linked

Page 17: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data

LinkedDataBR - FOCO

17

Treatment Process

Triples Vocabulary Ontology

Pre-Processing Triplification Linking

Repository

LinkedDataBR Feed/Expose

Requests

URI

Responses

Linked Data

Queries

Consume/Explore

Consumers Data Producers

Governmental and Non Governmental Entities

Universities and Research Institutes

Governmental and Non Governmental Entities

Universities and Research Institutes

Citizen and Private Companies

LinkedDataCloud

Linked

Provenance

Page 18: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data

Projeto LinkedDataBR

• Objetivos

– Construção de uma infra-estrutura inicial de suporte à publicação e criação de repositórios de dados abertos utilizando os padrões de Linked Data

E ainda:

– Criação de diretrizes associadas ao processo de publicação

– Criação de grupo de interesse e mobilização para apoio e estímulo à iniciativa de Linked Open Data no Brasil e sua inserção no cenário mundial de dados abertos interligados.

18

Linked

Page 19: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data

Projeto LinkedDataBR

• Arquitetura

19

Linked

Page 20: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data

ETL Workflow (Captura de Proveniência)

20

Publishing Workflow Process

Triplify Linking

Retrospective Provenance Data

Prospective Provenance Data

Workflow Implementation Design

Workflow Implementation Execution

Extract Transform Load

Triples

Stage

Linked Open Government Data

Provenance Triples

Raw Government Data

Page 21: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data 21

ABORDAGENS PARA O ENRIQUECIMENTO SEMÂNTICO

Publicação de Dados Abertos Ligados

21

Page 22: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data

Ausência de preocupação com a semântica

22

Page 23: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data

Alguma preocupação com a semântica

23

Page 24: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data

Preocupação mediana com a semântica

24

Page 25: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data

Muita preocupação com a semântica

25

Page 26: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data 26

Exemplo de Cenário de Publicação de Dados Interligados

Linked

Page 27: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

Cenário de Financiamentos de Projetos de Pesquisa

Instituições de Pesquisa

Currículos de Pesquisadores

Projetos de Pesquisa

FNDCT

RNP

Lattes eMec

Grupos de Pesquisa - CNPq

GP-CNPq

tem participação

de

tem participação

de

tem instituição

Cenário de Aplicação C&T

27

Page 28: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

Exemplo do Processo de Publicação

Tratamento Triplificação Ligação

Page 29: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

Tratamento

Page 30: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

Triplificação

Page 31: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

Ligação

Page 32: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data

Projetos RNP

LODBR

“UFRJ”

temSigla

“LinkedDataBR”

temNome

UFRJ temInsituicao

MLMC “Maria Luiza M. Campos”

temNome

LODBR_Ph1 temFase

temParticipacaoDe

“Universidade Federal do Rio

do Janeiro”

temNome

Grupos de Pesquisa CNPq

GRECO “Grupo

Engenharia do Conhecimento”

temNome

MLMC “Maria Luiza M.Campos”

temNome

temParticipante

“Knowledge Engineering”

temArea Predominante

CNPq CV Lattes

MLMC

“Maria Luiza Machado Campos” temNome

“UFRJ” enderecoProfissional

MLMC0232 “CrossMDA: a Model-driven Approach for

Aspect Management” temTitulo

temPublicacao 2009 temAno

Instituticao GrupoTrabalho

WGFase

Participante

Publicacao

Pesquisador

swrc:Publication

swrc:Person

swrc:University

swrc:ResearchGroup

swrc:Project

eMec Instituições

“UFRJ”

temSigla

UFRJ

“Universidade Federal do Rio

do Janeiro”

temNome

temLocalOferta

RioJ

Resultado

Grafos interligados

Page 33: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data

Resultado

33

...

<rdf:Description rdf:about="http://www.rnp.br/resource/LDBR_Ph1">

<rdf:type rdf:resource="http://www.rnp.br/ontology/WGPhase"/>

<rnp:hasParticipationOf rdf:resource="http://www.rnp.br/resource/MLMC"/>

</rdf:Description> ...

<rdf:Description rdf:about="http://www.rnp.br/resource/MLMC">

<rdf:type rdf:resource="http://www.rnp.br/ontology/Participant"/>

<rdf:type rdf:resource="http://swrc.ontoware.org/ontology/Person"/>

<rnp:hasFullName> Maria Luiza Machado Campos </rnp:hasFullName>

<owl:sameAs rdf:resource="http://lattes.cnpq.br/resource/MLMC"/>

<owl:sameAs rdf:resource="http://www.cnpq.br/resource/MLMC"/>

</rdf:Description> ...

Page 34: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication of Linked Open Governmental Data

Considerações Finais

• Iniciativas nacionais e internacionais pela transparência das ações governamentais e participação do cidadão.

• Dado Aberto possui um papel fundamental, mas o valor real do dado é revelado se os dados são explorados em conjunto.

• LOD é uma abordagem de interoperabilidade e integração

• Em LOGD é essencial considerar algumas garantias de qualidade e estratégias de interoperabilidade

• Plataforma do LinkedDataBR e a abordagem de enriquecimento semântico incremental

• Concebida para apoiar os publicadores e gestores de dados de governo

• O potencial da colaboração do cidadão (wisdom of the crowds) desempenhará um papel importante no mapeamento e ligação.

34

Page 35: An approach for managing and semantically enriching the publication of Linked Open Governmental Data

An approach for managing and semantically enriching the publication

of Linked Open Governmental Data http://greco.ppgi.ufrj.br/gtlinkedbr/

Kelli de Faria Cordeiro1, Fabricio Firmino de Faria1, Bianca de Oliveira Pereira1,2, André Freitas2, Cristiano Expedito Ribeiro1, João Vitor Villas Boas Freitas1, Ana Christina

Bringuente3, Lucas de Oliveira Arantes3, Rodrigo Calhau3, Veruska Zamborlini3, Maria Luiza Machado Campos1, Giancarlo Guizzardi3

1Graduate Program in Informatics (PPGI) Federal University of Rio de Janeiro (UFRJ) – Brazil

2Digital Enterprise Research Institute (DERI) National University of Ireland – Galway – Ireland

3Ontology and Conceptual Modeling Research Group (NEMO) – Computer Science Department – Federal University of Espírito Santo (UFES) – Brazil