43
Semantic web Open Seminar “ 시시시 시시 시시시시 시시 시시 시 시시시시” Technology Trends for LOD and Semantic Web 2010. 07.26 이 이 이

1.sos2010 tony

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: 1.sos2010 tony

Semantic web Open Seminar“ 시맨틱 웹과 인공지능 기술 동향 및 구현사례”

Technology Trends for LOD and Semantic Web

2010. 07.26

이 경 일

Page 2: 1.sos2010 tony

Page 2

목 차

1.시맨틱 웹 개요• 5 관점 시맨틱 웹• 웹 데이터 상호운용• 기업 데이터 상호운용• 지식 공유와 표현

2.시맨틱 웹 기술 동향• 표준화 동향• 기술 발전 동향• LOD 동향• RDFa 활용 동향

3.향후 발전 전망

Page 3: 1.sos2010 tony

Page 3

Page 4: 1.sos2010 tony

Page 4

시맨틱 시맨틱 웹웹 [[ 데이터의 웹데이터의 웹 ]]

의미 메타데이터 (RDF) 주석 달린 웹 (RDFa,HTML5)

지능형 에이전트온톨로지 (OWL)

시맨틱 웹 개념

Page 5: 1.sos2010 tony

Page 5

• URI , RDF 기반 데이터의 웹

• 의미 주석 달린 웹 (RDFa)

• 온톨로지와 술어논리

• OWL 과 DL

• 추론과 계획 , 의사결정

• 전문가 시스템 , 상황인지

• 데이터 상호운용성

• 트리플과 그래프

• 시맨틱 검색 , 마이닝

• 정보 추천 , 정보 발견

5 관점 시맨틱 웹

Page 6: 1.sos2010 tony

Page 6

WWWWWW

50/60Hz100/110/120/125/127/200/210/220/230/240V

웹 데이터 공유와 상호운용 ?

Page 7: 1.sos2010 tony

Page 7

웹 데이터 공유와 상호운용 ?

Page 8: 1.sos2010 tony

Page 8

subscribingsubscribing

billingbilling

phone callphone call

locationlocation

m-commercem-commerce

content usagecontent usage

promotionpromotion

CRMCRM

기업 데이터 공유와 상호운용 ?

Page 9: 1.sos2010 tony

Page 9

기업 데이터 공유와 상호운용 ?

Page 10: 1.sos2010 tony

Page 10

자연 언어(Natural Language)

글로 쓰여진 사람의 말 : “ 지구는 타원 궤도로 태양을 돌고 있다”

시각 언어(Visual Language)

그림 , 구조도 , 흐름도 , 설계도 등 시각적으로 지식을 표현

주석 , 태깅(Tagging)

개체에 연관된 키워드 , 기호 , 이미지 등을 부착해 지식을 표현

기호 언어(Symbolic Language)

수학 등을 포함해 기호로 표현된 지식 : x2/a2 + y2/b2 = 1

의사 결정 나무(Decision Tree)

복잡한 의사 결정을 위해 구성된 나무 모양의 그래프 구조

규칙(Rules)

인간 지식을 여러 규칙들의 조건부 결합으로 표현

데이터베이스(Database System)

개체와 관계로 구성된 테이블 형태의 지식 표현 체계

논리 언어(Logical Language)

논리 기호 , 연산을 통한 지식 표현 : Woman ≡ Person ∩ Female

프레임 언어(Frame Language)

값 혹은 타 프레임의 포인터를 저장한 슬롯들로 지식 표현

시맨틱 네트워크(Semantic Network)

개념간의 의미적 관계를 그래프 구조로 구성한 지식 표현

통계적 지식(Statistical Knowledge)

확률과 통계에 기반한 지식 표현 , 기계 학습 기술 접목 가능

사람

기계

지식 공유 ? 지식 표현 !

Page 11: 1.sos2010 tony

Page 11

“ 기업에 종사하는 종업원은 사람들이고 , 기업과 종업원은 모두 법적 존재이다 .

기업은 직원들을 위해 여행 예약을 할 수 있다 . 여행은 한국 내 도시 , 혹 미국의 도시를 오고 가는 비행기 혹은 기차를 통해 가능하다 . 기업들과 출장지는 도시에 위치하고 있다 . 솔트룩스는 홍길동을 위해 서울과 뉴욕 왕복 항공편인 OZ510

을 예약하였다 .”

자연 언어

규칙 언어

( 규칙 ) 만약 누군가가 날고 있다면 , 여행중인 것이다 .

( 규칙 ) 만약 누군가의 여행이 한 회사에서 예약되었다면 , 그는 그 회사의 종업원이다 .

( 규칙 추가 ) 만약 동일 국가의 근거리 여행이라면 , 종업원은 기차를 이용해야 한다 .

( 추론 ) 비행 예약이 되어 있는 홍길동은 솔트룩스의 종업원이다( 추론 ) OZ510 은 미국과 한국을 오가는 비행편이다 .

지식의 표현

Page 12: 1.sos2010 tony

Page 12

법적 존재

사람 기업

종업원

홍길동

솔트룩스

비행기 기차

도시

위치

한국 도시 미국 도시

뉴욕

서울

OZ510

여행

kin

dO

f

kindOf

kindO

f

kindOfki

ndO

f

kin

dO

fin

stnace

Of

insta

nce

Of

insta

nce

Of

insta

nceO

f

endsIn

startFrom

isLocatedAt

books

participatesIn ki

ndO

f kindOf

startsFrom

endsIn

books

participatesIn

isEm

ploy

edAt

inst

an

ceO

f

isEmployedAt

법적 존재

사람 기업

종업원

홍길동

솔트룩스

subclassOf

subcl

ass

Of

sub

clss

Of

insta

nce

Of

isEm

ploy

edAt

inst

an

ceO

f

isEmployedAt

사람 기업

종업원

#3502

#4831subclassO

f

subcl

assO

f

sub

clss

Of

insta

nce

OfisE

mpl

oyed

At

inst

an

ceO

f

isEmployedAt

법적 존재이름

고유번호

성별나이

업종주소지

직급

홍길동

37과장

P12345남자

솔트룩스

서울 삼성동

C98765소프트웨어

사람 기업

종업원

#3502

#4831

subclassOfsubc

lass

Of

sub

clss

Of

insta

nce

Of

isEm

ploy

edAt

inst

an

ceO

f

isEmployedAt

법적 존재이름 ( 필수 )

고유번호 ( 필수 )

성별 ⊆ { 남 , 녀 }나이 > 25

업종주소지 ⊂ 서울

직급 ≠ 임원

홍길동

37과장

P12345남자

솔트룩스

서울 삼성동

C98765소프트웨어

DISJOINT

(a) 시맨틱 네트워크 (b) (a) + 프레임 ( 프로퍼티 ) (c) (b) + 논리 제약

CARDINALIT

Y

= 1:1

지식의 표현

Page 13: 1.sos2010 tony

Page 13

Page 14: 1.sos2010 tony

Page 14

OWL2 ?

• 2004 년 RDF/S 와 OWL 의 첫 표준 발표

• OWL 기반의 상용 기술 개발 중 대용량 처리 등 어려움 직면

• OWL DL 은 종종 다항 시간에 답을 내지 못하는 문제 있음

• W3C 는 2009 년 말 , OWL 2 표준을 통해 산업계의 요구사항 수용

• OWL 2 는 세가지 프로파일을 정의함으로 다항시간 내 추론 가능

Page 15: 1.sos2010 tony

Page 15

OWL2 ?

프로파일 특 징

OWL2 EL

• 클래스 혹은 속성이 대단히 많은 응용에 적합• EL 의 제약 조건과 공리만을 사용하면 , 많은 수의

클래스와 속성을 가진 온톨로지에 대해서 다항시간 내에 결정 가능 추론 가능

OWL2 QL

• 인스턴스가 대단히 많은 , A-Box 추론 성능이 중요한 응용에서 권고

• 기존의 RDB 와 결합해 사용 가능한 장점을 가짐 .

• QL 질의는 모두 SQL 로 변환 가능 , 표현력이 낮은 단점

OWL2 RL

• 상대적으로 적은 표현력 손실과 대용량 처리가 동시 필요할 때 권고

• 온톨로지의 일관성 점검 (consistency check) 과 포함관계 (subsumption) 추론이 가능하며 , 동시에 규칙 기반 추론을 적용할 수 있는 장점 보유

Page 16: 1.sos2010 tony

Page 16

The Future of RDF??

• W3C 에서 RDF Next Steps 워크샵 개최 (June 26, 2010)

• 향후 Working Group 에서 진행해야할 중요 주제로 다음의 5 가지 선정

– Adding support for graph identification (such as with named graphs)– Fixing known errors and shortcomings in the specifications– Standardizing Turtle– A syntax related to Turtle to support for embedded/named graphs– Standardizing an RDF serialization based on JSON

Page 17: 1.sos2010 tony

Page 17

The Future of RDF??

Page 18: 1.sos2010 tony

Page 18

The Future of RDF??

• TBL 에 뒤늦게 Workshop 에 참여 , 자신의 소신 밝힘

– Cleaning up the RDF model– Extending the RDF model to allow N3– Extending N3– Ontologies on top of N3– Extending N3 Including RIF features

• N3 와 관련된 강력한 의지 표현 !

<#pat> <#knows> <#jo> . <#pat> <#age> 24 .

<#pat> <#age> 24; <#eyecolor> "blue" . <#al> <#age> 3; <#eyecolor> "green" . <#jo> <#age> 5; <#eyecolor> "green" .

age eyecolor

pat

24 blue

al 3 green

jo 5 green

{?x family:parent ?y. ?y family:brother ?z} => {?x family:uncle ?z}.

Page 19: 1.sos2010 tony

Page 19

HTML5

• The canvas element for immediate mode 2D drawing.

• Timed media playback• Offline storage database (offline web

applications)• Document editing• Drag-and-drop• Cross-document messaging• Browser history management• MIME type and protocol handler registration

• Microdata• Geolocation• Local SQL Database[17]. Web SQL Database• Indexed hierarchical key-value store

http://www.chromeexperiments.c

om/

Page 20: 1.sos2010 tony

Page 20

Scala

bilit

yS

cala

bilit

yPerformacePerformace

ExpressivityExpressivityData

Dynamics

DataDynamics

시맨틱 기술의 발전

< 성능 평가 지표 >

Page 21: 1.sos2010 tony

Page 21

ExpressivityExpressivity

Scala

bilit

yS

cala

bilit

y

Telco

EnterpriseSearch

Medical

UbiComp

Socia

l N

et

년 도 성 능

2005• 500M triples• OWL DLP

2009• 10B triples• OWL DL Horst

시맨틱 기술의 발전 : 대용량 처리

Page 22: 1.sos2010 tony

Page 22

Scala

bilit

yS

cala

bilit

y

PerformancePerformance

Socia

l N

et

Telco

EnterpriseSearch

Medical

UbiComp년 도 성 능

2005• 500M triples• 1~40S (LUBM1000)

2009• 10B triples• 0.01~5S (LUBM1000)

시맨틱 기술의 발전 : 질의 속도

Page 23: 1.sos2010 tony

Page 23

Scala

bilit

yS

cala

bilit

y

Data DynamicsData Dynamics

Socia

l N

et

Telco

EnterpriseSearch

Medical

UbiComp 년 도 성 능

2005• 500M triples• 15KTPS

2009• 10B triples• 50KTPS , >200KTPS

시맨틱 기술의 발전 : 로딩 속도

Page 24: 1.sos2010 tony

Page 24

2004 (V 1.2)

2006 (V 1.5)

2008 (V 2.0)

시맨틱 기술의 발전 : 추론 속도

Page 25: 1.sos2010 tony

Page 25

ExpressivityExpressivityExpressivityExpressivity

Scala

bilit

yS

cala

bilit

yS

cala

bilit

yS

cala

bilit

y

ExpressivityExpressivityExpressivityExpressivity

Scala

bilit

yS

cala

bilit

yS

cala

bilit

yS

cala

bilit

y

????

시맨틱 기술 최적화 방안 ?

Page 26: 1.sos2010 tony

Page 26

Enhanced algorithm

Materialization

Distributed Computing

Approximation

Lean KR model

Query optimization

Enhanced algorithm

Materialization

Distributed Computing

Approximation

Lean KR model

Query optimization

WithoutOptimization

WithoutOptimization

AfterOptimization

AfterOptimization

+ Query/Data Cache+ Query/Data Cache

시맨틱 기술 최적화 방안 ?

Page 27: 1.sos2010 tony

Page 27

AlgorithmAlgorithm MaterializationMaterialization

DistributionDistribution

ApproximationApproximationLean KR modelLean KR model

QueryOptimization(+ Cache)

QueryOptimization(+ Cache)

MedicalMedical

E. SearchE. Search

Social NetSocial Net

MobileMobile

UbiquitousUbiquitous

시맨틱 기술 최적화 방안 ?

Page 28: 1.sos2010 tony

Page 28

• W3C 의 LOD(Linking Open Data)프로젝트를 통한 시맨틱 웹 기반의 공개 데이터 연계

• URI 와 SPARQL EndPoint 적용 , 현재 4.2 billion 이상의 트리플

• 바이오 , 공간정보 , 위키피디아 등 방대한 데이터 연결 (142M links)

• 최근 data.gov, data.gov.uk 등 국가 DB 공개 /활용 촉진

LOD project : Linking Open Data

Page 29: 1.sos2010 tony

Page 29

LOD project : Linking Open Data

Page 30: 1.sos2010 tony

Page 30

• Use URIs as names for things

• Use HTTP URIs so that people can look up those names.

• When someone looks up a URI, provide useful information, using the standards (RDF*, SPARQL)

• Include links to other URIs. so that they can discover more things.

• 다양한 Sparql Endpoints 참조 : http://esw.w3.org/SparqlEndpoints

Linked Data and SPARQL Endpoints

<Content negotiation Process>

Page 31: 1.sos2010 tony

Page 31

Linked Data and Gov. Data

Page 32: 1.sos2010 tony

Page 32

https://www.knowledge.go.kr/jsp/pissc/publicInfo.jsp http://www.egovframe.go.kr/Egovcmm.jsp

Gov. Open Data in Korea ???

Page 33: 1.sos2010 tony

Page 33

Open Graph : FaceBook

Page 34: 1.sos2010 tony

Page 34

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . @Prefix skos: <http://www.w3.org/2004/02/skos/core#> . <http://topics.nytimes.com/top/reference/timestopics/people/b/ray_bradbury#concept> a skos:Concept; skos:prefLabel "Bradbury, Ray"; skos:broader <http://topics.nytimes.com/top/reference/timestopics/people#concept>; skos:inScheme <http://topics.nytimes.com/top/reference/timestopics#conceptScheme> .

Yahoo, NYT and Best Buy

Page 35: 1.sos2010 tony

Page 35

Page 36: 1.sos2010 tony

Page 36

시맨틱 검색 ?

Semantic Web Search

vs.

Semantic Search

Page 37: 1.sos2010 tony

Page 37

시맨틱 웹 검색

Page 38: 1.sos2010 tony

Page 38

Web 1.0 Web 2.0 Web 3.0? : Semantic Web ??

검색 소셜 네트워크 연결 , 발견 예측 , 추론

정 보 사 람 지 식 지 능

정보 처리 정보 분석 지식 공유

2000 2005 2010 2015

수집 , 관찰수집 , 관찰 연결 , 재조직연결 , 재조직 발견발견분석분석

2020

시맨틱 검색 : 연결과 발견 !

Page 39: 1.sos2010 tony

Page 39

• 자연 언어 • 시각 언어• 정보 태깅

“ 기업에 종사하는 종업원은 사람들이고 , 기 업 과 종 업 원 은 모 두 법 적 존재이다 . 기업은 직원들을 위해 여행 예약을 할 수 있다 . 여행은 한국 내 도시 , 혹 미국의 도시를 오고 가는 비행기 혹은 기차를 통해 가능하다 .

기업들과 출장지는 도시에 위치하고 있 다 . 솔 트 룩 스 는 홍 길 동 을 위 해 서울과 뉴욕 왕복 항공편인 OZ510 을 예약하였다 .”

• 시맨틱 넷• 규칙과 논리• 확률 통계

키워드 검색 시맨틱 검색

?

시맨틱 검색 : 연결과 발견 !

Page 40: 1.sos2010 tony

Page 40

유 형 설 명

1의미모호성 해소 검색

• 시장 (mayor, market, hunger), 말 (speech, horse, checker, end) 등의 용어 의미를 구분해 색인 , 검색 시 의미에 따른 분류 수행

• 개체명 인식 , 시맨틱 어노테이션 , 용어 군집 , 온톨로지 기술 등 적용

2어휘 개념 확장 검색

• 핸드폰= 휴대폰= 셀룰라폰 , 과일⊃사과∋부사 , 정치인⊃대통령∋이명박 등의 개념적 상하위 관계 , 동의어 /유의어 관계 , 인스턴스 등을 확장 검색

• 시소러스 ( 워드넷 ) 및 온톨로지 활용 , 질의 시 포함관계 추론 가능

• 온톨로지 파퓰레이션 등 자동화 기술 통한 자동 구축 가능

3개체 특징확장 검색

• 솔트룩스 . 대표이사 , 솔트룩스 . 주소 , 솔트룩스 . 제품 등과 같이 검색 대상 개체의 구체적 특징들에 대해 확장 검색할 수 있는 기능

• 트리플 관점에서 보면 predicate 를 통한 정보 네비게이션 형태를 취함

• 구축된 온톨로지를 활용하거나 , 텍스트로부터 부분 구문분석 (partial parsing)을 통해 관련 정보를 자동 추출 가능 ( 네이트 시맨틱 검색 유형 )

4연관 주제 확장 검색

• 천안함 - 침몰 - 어뢰 , 장동건 - 고소영 - 결혼 등과 같이 연관된 주제들을 연결해 확장 검색할 수 있는 기능

• 특정 주제를 둘러싼 컨텍스트와 트랜드 이해를 목적으로 함

• 공기어분석 , LSA, 토픽랭크 등의 분석 기법 적용

5의도 기반

검색

• 냉면 - 맛집 /요리법 /역사 , 청담동 - 교통 /식당 /카페 등 , 사용자의 검색 의도에 따른 목적 주제를 제시하는 검색

• 사용자 로그 등 검색 패턴 분석을 통해 주제에 따른 사용자 의도 발견 , 주제별 인덱싱

시맨틱 검색의 유형

Page 41: 1.sos2010 tony

Page 41

시맨틱 소셜 네트워크 분석

Page 42: 1.sos2010 tony

Page 42

맺음말

Page 43: 1.sos2010 tony

Thank you!