Upload
won-seok-oh
View
898
Download
8
Embed Size (px)
Citation preview
문화유산 정보와 시맨틱웹 응용
오 원 석
2
Linked Data 소개1
The Web : The World’s Largest Information System
3
4
The Web : The World’s Largest Information System
5
질의
Semantic Web & Linked Data
6
인간이 이해할 수 있는 (human-readable) 웹
참고 : Chris Bizer / The Emerging Web of Linked Data
• 문서 (Document) 로 이루어진 글로벌 네트워크
• HTML 문서가 기본 단위• 인간 가독형 (human-readable) – Pre-
sentation
• 문서간 단순 링크 (untyped links)
단순 링크로 , 연결은 되어 있지만 서로가 어떤 내용을 포함하고 있는지는 모름
YES
???
Current Web – Document Web
7
기계가 이해하고 처리 할 수 있는 (machine-readable) 웹
참고 : Chris Bizer / The Emerging Web of Linked Data
YES
YES
• 데이터 (Data) 로 이루어진 글로벌 네트워크• RDF 데이터가 기본 단위• 기계 가독형 (machine-readable)
• 데이터간 의미있는 링크 (typed links)
개체 (thing) 들 간의 연결로 서로가 개체에 대한 참조 속성으로 연결됨
Data Web
8
미래의 웹 데이터 웹 Linked Data Global Database
질의 , 탐색 , 활용
Data Web Semantic Web : Linked Data
Linked Data 예시
9
HongGilDong
Hong, Gil Dong
35
Seoul
Seman-ticWeb
[hasPhotoCollection]
http://dbpedia.org/resource/Semantic_Web
http://www4.wiwiss.fu-berlin.de/flickr-wrappr/photos/Semantic_Web
[sameAs]
http://dbpedia.org/resource/Seoul
http://sws.geonames.org/1835848/
http://sws.geonames.org/1835848/near-by.rdf
[nearbyFeatures]
[residences]
[researches]
[name] [age]
시맨틱웹은 단지 데이터를 웹으로 제공하는 것이 아니라 , 데이터 간의 링크를 만듦으로써 , 인간이나 기계 모두
데이터의 웹을 탐험할 수 있도록 해준다 . Linked Data 를 통해 유용한 데이터를 얻게 되면 , 그 데이터에
관계된 데이터로 계속되는 항해가 가능하다 .
- Tim Berners-Lee, Linked Data, 2006, http://www.w3.org/DesignIssues/LinkedData.html
Linked Data 4 원칙
10
1. Use URIs as names for things.
2. Use HTTP URIs so that people can look up those names.
3. When someone looks up a URI, provide useful information, using the standards. (RDF*, SPARQL)
4. Include links to other URIs. so that they can discover more things.
Linked Data 4 원칙 – 제 1 원칙
11
1. Use URIs as names for things.
URI
Linked Data 4 원칙 – 제 2 원칙
12
2. Use HTTP URIs so that people can look up those names.
HTTP
Linked Data 4 원칙 – 제 3 원칙
13
3. When someone looks up a URI, provide useful information, using the standards. (RDF*, SPARQL)
RDF
Linked Data 4 원칙 – 제 3 원칙 ( 계속 )
14
3. When someone looks up a URI, provide useful information, using the standards. (RDF*, SPARQL)
SPARQL
Linked Data 4 원칙 – 제 4 원칙
15
4. Include links to other URIs. so that they can discover more things.
interlink-ing
Linked Data 5 Star
16
http://lab.linkeddata.deri.ie/2010/star-scheme-by-example/
현재의 웹
17
• 지금도 많은 데이터들이 웹에 있습니다 .
HTML
18
현재의 웹
• 지금도 많은 데이터들이 웹에 있습니다 .
데이터를 갖고 있는 곳들
19
Linked Data 로 연결하면 ??
20
data.-go.kr
데이터를 보는 관점
21
데이터주인
이 데이터는 이렇게 쓸려고 만들었어
관점
이 데이터는 이렇게 보면 이렇게 쓸 수도 있겠군 ..흑 ㅠㅠ 그런데 사용할 수가 없네 ??
데이터주인
이 데이터는 이렇게 쓸려고 만들었어
관점
이 2 개의 데이터를 섞으면 내가 원하는 결과를 얻을 수 있는데… 우잉 !!
저 데이터가 있어야 내가 기획한 서비스가 동작하는데 .. 아쉽다 ..!!!
관점
관점
관점
관점
관점
관점
데이터를 보는 관점
데이터주인
내 데이터랑 개방된 웹상의 저 데이터를 융합하면 좋은것이 나오겠군… !! 내 데이터도 꺼내 놓으라고 ?? 그건 안
돼 !!
왜냐고 ??
음 !!!
품질도 안 좋고…비밀스러운 데이터이고…누가 볼까 걱정되고 ..우리 서버 느려질테고…등등
이유는 백만가지도 넘어 ..
난 그냥 누가 꺼내 놓으면 그걸 가져다가만 쓸꺼야… !!!
데이터를 보는 관점
데이터주인
데이터 좀 쓰기 좋게 오픈해 주심 안돼요 ?
안됩니다 . 비밀 데이터입니다 .
홈페이지에 다 있던데요 ?? 그런데 HTML 포맷이라 쓰기가 불편해요 ..
헉 .. 그래요 ?? 음…그건 오픈하면 안되는거라 막아야 합니다 .. 조치하겠습니다 .
앗 .. 우잉…그럼 그거라도 그냥 쓸께요…막지는 마세요 .. ㅠㅠ
24
Linked Data 현황2
25
•시소러스 , 택사노미 , 분류체계와 주제명표목 같은 지식어휘체계를 웹에 표현하기 위한 RDF 용어집 (vocabulary)
•Enterprise 환경의 표준 용어 관리나 , Linked Data 서비스에서 개체들을 표현하기 위한 용어들간의 관계 표현에 주로 활용
•미국 의회도서관의 LCSH 등과 함께 Linked Data 를 위한 거의 모든 RDF 에서 활용되고 있음
•W3C 는 Linked Data 데이터 셋에서 용어간의 관계 표현과 함께 기존의 택사노미 , 시소러스 , 분류체계 등을 Linked Data 로 발행하고자 할 경우 SKOS 를 사용할 것을 권고하고 있음
Vocabulary - SKOS
SKOS 로 표현된 World Wide Web
DBpedia 에서의 SKOS 활용 예시
26
•사람간의 관계 기술을 위한 RDF 기반의 명세 용어집 (vocabulary)
•RDF 구문을 기반으로 하고 있으며 , 그룹 (group) 에 소속되어 있는 개인 (person), 조직 (organization) 에 의해 생성된 문서 (document), 한 개인과 연결된 다른 개인의 연결 등의 처리에 활용
•FOAF-a-matic 과 같은 간단한 어플리케이션을 통해 누구라도 손쉽게 자신의 FOAF 를 만들 수 있음
Vocabulary - FOAF
FOAF 를 이용한 Social Network 의 통합(Sheila Kinsella, Applications of Social Network Analysis
2007)
27
•시맨틱웹 기술을 이용하여 SNS 등의 커뮤니티를 연결하고자 하는 목적의 RDF 기반 용어집 (vocabulary)
•2004 년 DERI 를 중심으로 시작된 온라인 커뮤니티를 의미적으로 연결하기 위한 시도 중 하나로 , 커뮤니티 사이의 관계를 표현하기 위해 RDF/RDFS 를 이용하는 SIOC 온톨로지를 사용하며 FOAF, RSS 등을 이용해 확장 가능하도록 하고 있음
Vocabulary - SIOC
SIOC 의 주요 클래스와 속성
28
•기본적인 메타데이터의 속성을 표현하기 위한 용어집
•동영상 , 소리 , 이미지 , 텍스트 , 웹 페이지 등의 디지털 매체들을 기술하는 데 널리 사용되며 , XML 과 RDF 를 사용하여 구현되어 있음
•데이터의 형식과 구조를 단순화하여 원문의 저자나 발행자가 메타데이터를 직접 작성하고 , 이를 바탕으로 특정분야에서 요구되는 수준으로 확장하여 사용할 수 있도록 하는 것이 Dublin Core 의 목적
Vocabulary - Dublin Core
Drupal 에서의 Dublin Core 예시 Dublin Core 메타데이터 요소
LOD Cloud
29
2009.032008.092007.05
2011.09
30
http://lcsubjects.org/subjects/sh95000541
미국 의회 도서관
•도서관 자료의 주제목록 (subject cataloging) 을 위한 Subject Headings 를 Linked Data 로 발행
•MARC21(MARCXML) 포맷으로 되어 있는 전거 데이터 (authority record) 를 RDF 포맷의 SKOS 를 이용하여 RDF 화
•전거 레코드의 각 항목 (entry) 을 skos:Concept 의 인스턴스로 대응하고 LCCN(Library Congress Control Number) 을 이용하여 URI 부여
World Wide Web 을 표현한 Linked DataLCSH 에서 MARC 와 SKOS 의 매핑 관계
VIAF(Virtual International Authority File)• 목적
- 전거 데이터의 공유 증진
- 목록 비용 절감
- 국제적인 전거 통제
• Linked Data 의 활용- 항목마다 URI 를 부여하여 linked data 로 이용
가능
- UNIMARC 과 MARC21, RDF 지원
31
VIAF 에서의 Steve Jobshttp://viaf.org/viaf/84237107/#Jobs,_Steve,_1955-
2011
VIAF
VIAF 에서 지원하는동일 개체의 표현 방법
32
LIBRIS
•스웨덴 국립도서관으로 도서관 전체 데이터를 Linked Data 로 구축한 최초의 종합목록 (2008 년 )
•대학도서관 및 연구도서관 , 박물관 , 아카이브 , 공공도서관 등 170 여개 도서관 기관이 이용하는 종합목록시스템 .
•RDF파일 포맷을 제공하여 Linked Data 를 구현 .
• “아래는 Linked data : evolving the web into a global data space / Tom Heath, Christian Bizer” 예시
http://libris.kb.se/bib/12130810 http://libris.kb.se/data/bib/12130810
33
data.gov.uk
•영국 정부는 정책의 투명성을 높이고 , 국민의 알 권리를 향상시키며 , 공공정보의 재사용성 증진을 통해 경제적 사회적 가치 증대를 유발시키고자 공공 정보 개방
•차세대 웹 (web of data, 즉 , Semantic Web) 기술에서 자국의 인지도를 상승시키고 , 데이터를 보다 윤택하게 제공하기 위해 Linked Data 기술 적용
34
LinkedBrainz
BBC
35
BBC Music BBC Worldcup
• BBC 의 대표적 Linked Data 서비스인 BBC Music 과 BBC Worldcup
Linked Data 기술 : 기술 개념도
36
ERP DW CRM 2. 온톨로지 ( 트리플 ) 변환 매핑 설계
1. 온톨로지 설계
온톨로지변환 규칙
개념 모델( 온톨로지 )
3. 온톨로지 ( 트리플 ) 변환
4. 온톨로지 ( 트리플 ) 저장
6. Linked Data 서비스 구현
Mashup Browsing Search …
관리5. 추론
…
Linked Data 솔루션
37
•기존의 온톨로지 레파지토리 시스템 중심의 OpenLink 통합 솔루션•다양한 RDBMS, ODBMS, File Server 의 데이터 뿐만 아니라 텍스트 , XML, HTML 데이터를 하나로 통합하는 미들웨어•DBPedia, MusicBrainz, Bio2RDF 등의 Linked Data 프로젝트에 활용•현재 세계에서 가장 주목 받고 있는 Linked Data 솔루션 중의 하나
•영국 Talis 사의 통합 솔루션•영국의 data.gov.uk, ordnancesurvey 와 BBC Music 서비스 구축에 도입•구조적 , 비구조적 데이터의 RDF 변환 기능 제공•SPARQL Endpoint 등의 Cloud 기반 Linked Data 호스팅 서비스 기능 제공•영국의 data.gov.uk 등과 함께 현재 세계에서 가장 주목 받고 있는 Linked Data 솔루션 중의 하나
38
•독일 Ontotext 사의 LDSR(Linked Data Se-mantic Repository)•LOD 데이터 셋 중 생명공학 분야데이터 셋 40억개의 Linked Data 서비스를 제공하는 linkedlifedata 서비스 구축에 도입•오픈소스 Sesame 구조 위에 SAIL 추론 계층 등을 두어 솔루션 제공•추론 지원정도나 대용량 지원 정도에 따라 OWLIM-Lite, OWLIM-SE, OWLIM-Enterprise로 구분
•D2R Server 는 베를린 대학의 오픈소스 프로젝트로 주로 Linked Data 의 허브 역할을 하는 것으로 다양한 원천 데이터로 부터 트리플을 생성 , 변환해주는 기능 제공 – DB-Pedia, BBC Worldcup 등에서 활용• AllegroGraph 는 미국 Franz 사의 Linked Data 구축을 지원하는 대용량 트리플 스토어•OntoBase2.0 은 한국 탑쿼드란트코리아의 Linked Data 서비스 구축에 최적화된 대용량 트리플 스토어
Linked Data 솔루션
39
Linked Data for Cultural Her-itage
3
thedatahub
40
The Comprehensive Knowledge Archive Net-work
Why semantic web for Cultural Her-itage
41
• Many C.H. institutions have a data integration problem, since data about the same artifacts is scattered in separate silos:– cataloging data – acquisition data – conservation data – scientific data, …
Why semantic web for Cultural Her-itage
42
• Global 환경의 데이터 활용 – Giant Global Graph
Cultural Heritage Data Standards
43
• Dublin Core (DC)– Simple resource descriptions: author, date created, etc– ISO 15836
• Conceptual Reference Model (CRM)– 국제박물관협의회 (ICOM-International Council of Museums) 의 국제문서화위원회
(CIDOC-International Committee on Documentation) 가 이질적인 문화유산 정보의 통합 , 교환 , 연결 하기 위해 만든 온톨로지
– ISO 21127 (2006) "Information and documentation — A reference ontology for the interchange of cultural heritage information"
• Functional Requirements for Bibliographic Records (FRBR)– by International Federation of Library Associations and Institutions(IFLA) -
국제도서관협회연맹– Conceptual entity-relationship model
• Europeana Data Model (EDM)– Structuring the data that Europeana is ingesting, managing and publishing– Refined until the end of 2010, will be implemented during 2011– Open, cross-domain framework, adheres to Semantic Web modeling principles
MOLTO
44
• Requirements:- the ability to handle generic knowledge, such as people, institutions, and
locations- the ability to handle specific subject domains, such as the cultural
heritage and museums
• Ontology & Interlinking- DBpedia - the RDF-ized version of Wikipedia, describing more than 3.5
million things and covers 97 languages. - Geonames - a geographic database that covers 6 million of the most
significant geographical features on Earth. - PROTON - an light weight upper-level ontology, 542 entity classes and
183 properties. PROTON is encoded in OWL Lite- CIDOC-CRM- Painting Ontology (Time Ontology, Mid-Level-Ontology SUMO)- Linkages to DBpedia
• http://www.molto-project.eu
MOLTO – Museum Data Models
45
MuseumObject - ForemalsnumberURI:http://molto.ontotext.com/GSM_NrURI:http://molto.ontotext.com/GIM_Nr
ptop:Objectcrm:E22_Man_Made-Object
“GSM”/”GIM”
“painting”“portret”
“sculpture”
rdfs:label
rdf:type
mao:from
Collection
“kontor” - “office”“livsmedelsindustri” - “food”
“grafisk industri” - “graphics industry”
mao:relatedCategory
crm:E54_Dimension
mao:itemMeasurement
mao:Quantity(Antal)
mao:Length(Langd)
mao:Bredth(Bredd)
mao:Height(Hojd)
mao:Diam(Diam)
mao:Weight(Vikt)
mao:hasLength (Langd)
mao:hasBredth (Bredd)
mao:hasHeight (Hojd)
mao:hasDiam (Diam)
mao:hasWeight (Vikt)
ptop:Personcrm:E21_Person
pext:author“firstname lastname”
rdfs:label ptop:TimeIntervalcrm:E52_Time-Span
“time”
mao:fromPeriod
rdfs:label
crm:E58_Measurement_Unitcrm:P91_has_unitmao:hasQuantity (Antal)
“value”“value”“value”“value”“value”“value”
mao:valuemao:valuemao:valuemao:valuemao:value mao:value
crm:E57_Material
“material”
rdfs:label
mao:hasM
aterial ptop:Locationcrm:E53_Place
ptop:locatedIn
pext:Address
pext:hasAddress
“address”
rdfs:label
출처 : A Framework for Improved Access to Museum Databases in the Semantic Web
MOLTO – Gothenburg City Museum Data
46
• 8,900 museum objects in two museum collections - GSM(Gothenburg Stads Museum) and GIM(Gothenburg Industry
Museum)
• 39 properties describe each museum object
MAO – Finland
http://www.seco.tkk.fi/projects/finnonto/
MOLTO
47
• http://museum.ontotext.com
MOLTO
48
MOLTO
49
FactForge
50
FactForge
51
PREFIX fb: <http://rdf.freebase.com/ns/>PREFIX ff: <http://factforge.net/>PREFIX dbpedia: <http://dbpedia.org/resource/>PREFIX umbel: <http://umbel.org/umbel#>PREFIX dbp-prop: <http://dbpedia.org/property/>PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>PREFIX umbel-sc: <http://umbel.org/umbel/sc/>PREFIX dbp-ont: <http://dbpedia.org/ontology/>
SELECT DISTINCT ?painting_l ?owner_l ?city_fb_con ?city_db_loc ?city_db_citWHERE {
?p fb:visual_art.artwork.artist dbpedia:Amedeo_Modigliani ;fb:visual_art.artwork.owners [ fb:visual_art.artwork_owner_relationship.owner ?ow ] ;
ff:preferredLabel ?painting_l.?ow ff:preferredLabel ?owner_l .OPTIONAL { ?ow fb:location.location.containedby [ ff:preferredLabel ?city_fb_con ] } .OPTIONAL { ?ow dbp-prop:location ?loc.
?loc rdf:type umbel-sc:City ; ff:preferredLabel ?city_db_loc }OPTIONAL { ?ow dbp-ont:city [ ff:preferredLabel ?city_db_cit ] }
}
52
FactForge
Europeana
53
• http://europeana.eu• Pan-European Digital Museum• People can explore the digital resources of Europe's
museums, libraries, archives, audio-visual collections• And be inspired by the rich diversity of Europe's cultural and
scientific heritage• Promotes discovery and networking opportunities in
a multilingual space• Around 1500 institutions contributed
– Includes over 15 M items
Europeana and Semantic Web
54
• Europeana adopts semantic web for all future development– EDM is based on semweb, which makes it easily extensible– Current holdings will be converted to semweb format
• Europeana's first White Paper Knowledge = Information in Context looks at the key role LOD will play in Europeana's development– "Linked data gives machines the ability to make associations and put search terms
into context. Without linked data, Europeana could be seen as a simple collection of digital objects. With linked data, the potential is far greater"
• LOD Experiment in Europeana Thought Lab:– Data and metadata from the Amsterdam Museum (AM)
• 70k cultural heritage objects related to the city
– Retrieved from an XML API of the museum's collection (database by AdLib UK)– Converted to LOD compliant with EDM by Vrije Universiteit (VU): 5M facts
• Conversion software is available as open source
– Linked to existing datasets• Dutch Art and Architecture Thesaurus (AATNed)• Getty's Union List of Artists Names (ULAN)• DBpedia (data version of Wikipedia) • GeoNames (structured geographical data)
– Published to the Comprehensive Knowledge Archives Network (CKAN)– Prime example the type of LOD that Europeana will be producing
Europeana – Technical Architecture
55
The Europeana Semantic elementsThe Europeana Data Models
Europeana – Linked Data
56
Europeana – Linked Data
57
http://data.europeana.eu/item/92056/BD9D5C6C6B02248F187238E9D7CC09EAF17BEA59
Amsterdam Museum object
58• http://semanticweb.cs.vu.nl/europeana/browse/list_resource?r=http://purl.org/collections/nl/am/proxy-23182
1
2 3
59
1
2
3
Amsterdam Museum object
60
Linked Heritage
• Coordination of Standards and Technologies for the enrichment of Europeana- www.linkedheritage.org- Linked Heritage is a 30 month EU project, started on 1st April 2011
• 38 partners from 24 countries and 4 external contributors• Contribution of content Europeana: 3 millions objects• 5 key areas of development and innovation:
- Linked Data- Persistent identifiers - Metadata and standards- Cooperation with the private sector- Multilingual and cross-domain combination of terminologies