52
2014. 1. 24. 이이이이이 이이이이이이 [email protected] Linked Open Data 이 이이이이 이이 이이이

Linked Open Data 를 가능하게 하는 도구들

  • Upload
    libra

  • View
    97

  • Download
    1

Embed Size (px)

DESCRIPTION

Linked Open Data 를 가능하게 하는 도구들. 2014. 1. 24. 이 규 철 충남대학교 컴퓨터공학과 [email protected]. Ⅰ. Ⅱ. III. Ⅳ. 발표 순서. Linked Open Data : Web of Data. CKAN & OGPL. LATC & LOD2. Wrap-up. Linked Open Data : Web of Data. 데이터베이스의 진화 [Fujitsu 2012]. Linked Data : 차세대 진화. - PowerPoint PPT Presentation

Citation preview

Page 1: Linked Open Data 를 가능하게 하는 도구들

2014. 1. 24.

이 규 철충남대학교 컴퓨터공학과

[email protected]

Linked Open Data 를 가능하게 하는 도구들

Page 2: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

발표 순서

CKAN & OGPL

Linked Open Data : Web of Data

LATC & LOD2

Wrap-up

III

2/55

Page 3: Linked Open Data 를 가능하게 하는 도구들

Linked Open Data : Web of Data

Page 4: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

데이터베이스의 진화 [Fujitsu 2012]

4/55

Page 5: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

Linked Data : 차세대 진화

5/55

Page 6: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

Linked Data : DB Silo 들을 연계

6/55

Page 7: Linked Open Data 를 가능하게 하는 도구들

CKAN & OGPL

Page 8: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

모든 형태의 데이터 , 콘텐츠 공개 및 접근을 가능하게 하는 오픈소스 데이터 포털 플랫폼

OKF(Open Knowledge Foundation) 산하의 프로젝트 결과물로 OKF 는 2004 년 설립된 비영리 단체

목표데이터의 게시 , 공유 , 검색 , 사용을 가능하게 하는 도구를 제공하여 정부나 회사의 데이터를 공개함으로써 누구든지 이용 가능하게 함

라이선스Affero GPL 3.0

CKAN(Comprehensive Knowledge Ar-chive Network)

8/55

Page 9: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

총 70 개의 정부 데이터 포탈 및 데이터 커뮤니티를 구성

CKAN 적용사례

9/55

Page 10: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

CKAN 기능 및 구조

10/55

Page 11: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

CKAN Features

11/55

Page 12: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

CKAN Features( 계속 )

12/55

Page 13: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

인도와 미국의 공동 프로젝트 결과물로 데이터를 공개 , 공유함으로써 정부의 투명성을 보장하고 시민의 참여를 장려하는 오픈 소스 플랫폼

Future roadmap of OGPLCKAN + Drupal7

OGPL(Open Government Platform)

13/55

Page 14: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

개인 또는 커뮤니티가 웹사이트의 다양한 자료들을 손쉽게 관리 , 조직 , 출판할 수 있도록 다양한 기능을 제공하는 오픈 소스 CMS(Content Management System)

대표적 오픈소스 CMS : Drupal, WordPress, XpressEngine 등

오픈 소스 CMS 의 특징상용 CMS 는 정해진 방식대로 활용해야 하는 반면 , 오픈 소스 CMS 는 개발자가 원하는 대로 변형이 가능함

Drupal

상용 CMS = 변신합체로봇

오픈 소스 CMS = 레고

14/55

Page 15: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

코어 모듈웹 사이트 제작 플랫폼

기여 모듈코어 모듈과 결합하여 추가 기능을 부여하는 모듈

Drupal 구성

15/55

Page 16: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

미국 백악관

미국 정부 사이트의 24%, 교육 기관 사이트의 26%, 세계 100 대 대학의 71% 가 Drupal 을 사용

Drupal 적용사례

16/55

Page 17: Linked Open Data 를 가능하게 하는 도구들

LATC & LOD2

Page 18: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

LATC (Linked Open Data Around-The-Clock) 는 EU FP7 의 후원을 받는 프로젝트

2010 년 9 월 ~ 2012 년 8 월까지 총 2 년간 진행

목표LOD 데이터 셋 사이의 데이터 링크의 정확성과 품질 , 수의 증가LOD 게시와 소비의 지원

라이선스Apache license 2.0

LATC

18/55

Page 19: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

LOD Cloud 에서 데이터 셋간의 RDF 링크를 생성하기 위해 제공되는 솔루션

기능데이터간의 링크 생성LOD Cloud 로 부터 데이터 셋 검색CKAN 데이터 셋 검색링크 품질 측정

최근 24/7 Interlinking Platform 은 LOD2 의 Linking 단계를 위한 도구에 포함

24/7 Interlinking Platform

19/55

Page 20: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

24/7 Interlinking Platform 구조

20/55

Page 21: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

LOD2 는 EU FP7 의 후원을 받는 대규모 통합 프로젝트

목표데이터의 일관성과 품질향상관계형 데이터와 RDF 데이터 관리의 격차 해소데이터 게시자 , 사용자를 위한 LOD 의 진입 장벽 낮춤

2010 년 9 월 ~ 2014 년 8 월까지 총 4 년간 진행유럽 11 개국의 15 개의 파트너로 구성되어 있음

LOD2

21/55

Page 22: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

라이프 사이클 관리를 위한 통합 도구로 LOD 의 게시 , 관리 , 소비를 위한 일련의 절차

LOD2 Stack

22/55

Page 23: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

도구 라이선스

Virtuoso Sponger GPL 2.0

DBpedia Spot-light Apache 2.0

Poolparty Proprietary Li-cense

D2R Apache 2.0

SparQLed GPL 2.0

LOD2 Stack 라이프 사이클 도구의 라이선스

도구 라이선스

Virtuoso 7RDF Store GPL 2.0

OntoWiki GPL 2.0

RDF Author GPL 2.0

LIMES X

SILK Apache 2.0

도구 라이선스

LATC SILK Apache 2.0

DL-Learner GPL 2.0

ORE GPL 2.0

LODrefine BSD

SIG.MA GPL 3.0

23/55

Page 24: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

텍스트 , XML, RDB 등의 포맷으로부터 RDF 형태의 문서를 추출함

Virtuoso Sponger다양한 데이터 형식을 RDF 로 변환해주는 미들웨어

RDB, XHTML, XML, RDFa, CSV 등을 지원SOAP, REST 인터페이스를 통해 데이터에 직접적으로 접근할 수 있는 HTTP 프록시 서비스를 제공SPARQL Endpoint 지원

Extraction : Virtuoso Sponger

24/55

Page 25: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

Extraction : Virtuoso Sponger( 계속 )

25/55

Page 26: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

관계형 데이터베이스의 콘텐츠를 LOD 형식으로 변환

D2R serverLinked data view, HTML view, SPARQL Endpoint 기능 제공RDB 데이터를 RDF 또는 HTML 형식으로 변환하여 보여줌

D2RQ Engine별도의 Triple Store 없이 RDB 에서 RDF 기반의 접근을 제공함

RDB 에 RDF 기반의 접근을 제공하기 위해 R2RML 을 사용SPARQL Query, RDF dump 기능 제공

Extraction : D2R

26/55

Page 27: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

Extraction : D2R( 계속 )

27/55

Page 28: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

관계형 데이터베이스의 데이터를 RDF 형식으로 변환 할 수 있도록하는 매핑 언어

2012 년 9 월 W3C 표준으로 제정

R2RML

28/55

Page 29: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

RDF 형식의 데이터를 저장하고 , 저장된 데이터를 SPARQL 을 통해 검색할 수 있도록 함

Virtuoso특정 플랫폼에 상관없는 통합 데이터 관리 , 접근 , 통합 솔루션을 제공하는 멀티 모델 데이터 서버

Storage / Querying : Virtuoso RDF Store

29/55

Page 30: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

Storage / Querying : Virtuoso RDF Store( 계속 )

30/55

Page 31: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

시 맨 틱 콘 텐 츠 를 제 작 , 수 정 하 는 것 을 제 공 하 는 인터페이스

OntoWiki인스턴스 데이터들의 시각적 표현을 제공함시맨틱 콘텐츠를 제작할 수 있도록 하며 RDF 의 내용을 편집할 수 있는 편집 모드를 제공함

Manual revision / authoring : On-toWiki

31/55

Page 32: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

1. Selection of a knowledge base2. Selection of a class3. Selection of additional properties to be shown as columns in the list4. Further restriction of the resources in the list5. Selection of a resource redirects the user to a generic resource details view6. Representation of RDF triples in the user interface as resource attribute value nota-

tion

Manual revision / authoring : On-toWiki( 계속 )

32/55

Page 33: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

실제로는 같은 객체이나 서로 다른 URI 를 가진 자원들을 발견하여 연결함

SILK서로 다른 두 개의 데이터 셋에서 데이터 항목 간의 관계를 발견하는 도구데이터 셋 간의 연결을 위한 절차를 웹 애플리케이션으로 제공하여 발견 및 연결을 기능을 사용하기 쉽게 제공함

Interlinking / Fusing : SILK

33/55

Page 34: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

Interlinking / Fusing : SILK( 계속 )연결을 수행 할 2 개의 Dataset

연결할 대상이 되는 Class 를 지정

Class 의 특정 Property 를 지정 : name

Property 값 비교를 위한 규칙 생성

34/55

Page 35: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

Property(name) 값이 일치하는 경우의 결과 리스트

Interlinking / Fusing : SILK( 계속 )

35/55

Page 36: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

LATC SILKLATC 에서 SILK 에 부가적인 기능을 추가하여 만든 Interlinking 도구

SILK 기능WorkbenchConsoleConsole APIRuntime

LATC SILK 에 추가된 기능Data Source InventoryMetadata StoreSindice Crawler & Indexer

LATC SILK 와 SILK 의 비교

36/55

Page 37: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

상위레벨 온톨로지와의 연결 및 통합을 통해 Linked data 의 폭넓은 검색 및 활용을 제공함

DL-Learner인스턴스 데이터의 Description Logic 을 학습하는 도구특정 클래스에 대한 상위클래스에 대한 정보와 그 클래스와 비슷한 인스턴스 검색 , 인스턴스 분류 등을 제공하기 위함

Classification / Enrichment : DL-Learner

37/55

Page 38: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

Father 를 학습하는 예배경지식을 가진 Description Logic 에 Father 에 관한 인스턴스 정보를 전달

Positive example : Father negative example : NOT Father전달 받은 인스턴스 정보를 통해 Father Class 가 가지는 De-scription Logic 을 결론으로 도출

Classification / Enrichment : DL-Learner( 계속 )

배경 지식

Father 의 인스턴스 정보

결론 도출 : Male AND EXISTS hasChild.T

38/55

Page 39: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

Quality AnalysisLinked Data 의 품질을 평가하기 위한 기술

ORE (Ontology Repair and Enrichment)구성된 온톨로지에서 잘못 작성된 개념을 수정하거나 새로운 개념을 추가함으로써 온톨로지 품질을 향상시킴Ontology Enrichment

DL-Learner 를 사용하여 기존 클래스와 상위 클래스 사이의 관계를 학습함

Ontology Debugging 학습한 관계와 다른 논리적인 오류를 발견하고 그것을 수정함

Quality Analysis : ORE

39/55

Page 40: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

Quality Analysis : ORE( 계속 )

40/55

Page 41: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

Linked data 를 정제하고 , 문제점 발견될 시 자동으로 복구하는 방법을 제안함

Zemanta LODrefineOpenRefine 의 장점을 가져와 Linked Data 에 적 합 하 게 작동하도록 만든 도구DBPedia 데이터 셋과 연결하여 데이터를 확장할 수 있고 Crowd-sourcing 서비스를 통한 데이터 확장을 지원함

Evolution / Repair : Zemanta LO-Drefine

41/55

Page 42: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

보유하고 있는 기존 정보에 대해 Extension 을 수행

Evolution / Repair : Zemanta LO-Drefine( 계속 )

DBpedia 와 Extension 을 통해

추가적으로 얻은 정보

기존 정보

42/55

Page 43: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

RDF 로 만들어진 데이터를 Web 을 통해 검색할 수 있도록 함

SIG.MA Web 의 데이터를 Mashup 하여 구조화된 데이터 형태 (RDF, RDFa) 로 제공함RDF 데이터를 검색할 수 있도록 Query 를 지원함

Search / Browsing Exploration : SIG.MA

43/55

Page 44: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

Search / Browsing Exploration : SIG.MA( 계속 )

Web 에 존재하는 Tim Berners Lee 와 관련된 RDF link 를 발견하여 결과로 제공함

특정 Web Site 의 결과만 볼 수 있도록 approve, reject 기능을 제공함

44/55

Page 45: Linked Open Data 를 가능하게 하는 도구들

Wrap-up

Page 46: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

Linked Open Data 도구를 잘 사용하면 ?

데이터의 가치 향상

공유 및 연결을 통한데이터의 가치 향상

데이터 연계전문적인 지식이

없어도누구나 쉽게

관련 데이터를 찾음

플랫폼 활용다양한 지식정보

서비스플랫폼으로 활용

시너지 효과 발생지식화된 서비스를

통해 더 많은 창의적인 서비스창출

46/55

Page 47: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

빅데이터 분석을 통해 생성된 데이터를 LOD 로 구축하고 기존의 LOD 와 연계하여 지식화된 맞춤형 서비스를 구축

향후 발전 방향 : 빅데이터 분석에 LOD 를 활용

빅데이터

저장

시스템

HADOOp

47/55

Page 48: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

교통 사고통계

특정 지점에서 1 년에 10 회 이상 교통 사고 발생• 사고 다발 지점 지정

빅데이터 분석 지난 3 년간 특정 조건 (날씨 , 교통량 , 속력 등 ) 일 때 사고가 빈발• 특정 조건에 따라 교통 사고 가능성을 측정하여 사고주의 지역 예측• 사고주의 지역 진입 시 알림 ( 보행자 및 운전자 )

빅데이터 지식화 지난 3 년간 특정 조건일 때 사고를 일으킨 자동차에 장착된

차량제어장치와 그 제조회사를 찾아내어 문제 장치를 진단• 사고가 발생한 차량의 제동거리를 비교하여 제동장치의 문제를 진단

빅데이터 분석에 LOD 를 활용한 예시

48/55

Page 49: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University 49

LOD 의 증가로 인한 변화

Slave

Master

Single Machine Cloud

Big Linked DataLinked Data

Page 50: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

RDF 는 Subject, Object 의 지속적인 연결로 인하여 많은 Join 연산이 발생함

Hadoop & MapReduce 는 Join 연산이 존재하지 않음Multi-Query 시 상당한 I/O, Network Traffic 발생의 원인이 되며 상당한 성능 저하가 발생함

Hadoop & MR 을 통한 Big LOD 처리시 문제점

50/55

Page 51: Linked Open Data 를 가능하게 하는 도구들

Database Systems Laboratory, Dept. of Computer Sci-ence and Engineering Chungnam National University

IndexingTable Index for indexing RDF triples

PartitioningRDF schema based hybrid partitioning, using vertical par-titioning and horizontal partitioning to store related triples into the same machine

Query Processing and OptimizationReducing the number of MR cycles in SPARQL query exe-cution

CNU DB Lab 의 연구 방향

51/55

Page 52: Linked Open Data 를 가능하게 하는 도구들

감사합니다

Questions