Upload
naver-d2
View
1.376
Download
2
Embed Size (px)
Citation preview
문맥인식기술의 활용 - 판, 싸이블로그의 관렦글,태그 추천의 방법을 알아봅니다
2011.10.18 SKComms/ 기술연구소 / MI팀 정시앙
• 용어 설명
• 서비스 예시
• 시스템 구조
• 이론 배경
• 주요 난제
• 프로젝트 추구 방향
• 적용 현황
• Q&A
목차
Context(문맥이란?)
• 누군가에 의해 저작된 텍스트 (단어군집, 문장, 문단, 문서) 단위의 정보 • 문맥, 맥락, 행간, 문장의 젂후관계
Context(surrounding words)
. •유비쿼터스 컴퓨팅과 관련하여 사용자와 다른 사용자, 시스템, 혹은 디바이스의 애플리케이션 간 상호 작용에 영향을 미치는 사람, 장소, 사물, 개체, 시간 등 상황(situation)의 특징을 규정하는 정보
Context(circumstances)
Data Mining이란?
Database Technology, Parallel Computing, Distributed Computing
predictive tasks : classification
descriptive tasks : clustering
Data Mining
출처:Introduction to Data Mining (PANG-NING TAN etc.)
Artificial Intelligence
Machine Learning
Pattern Recognition
Statistics
문맥 인식(Context Awareness) 시스템
문맥 인식 Learner 시스템
Query 문서
학습 대상 문서
문맥 인식 Matcher 시스템
학습
추론
• Machine Learning 과 통계적 기법을 이용 • Query문서의 문맥(Context)를 분석해 연관성(relevance)이 높은 컨텐츠,
태그를 추천하는 시스템
그 태그
카테고리
중복 문서
관렦 문서
문맥 인식 시스템의 서비스 예시
제목과 본문 내용을 이용하여,
관렦 동영상 추천
시스템 Flow
Preprocessing
Feature Extraction
Learner Matcher
Service Server Service Server Service Server WEB API/XML
Learning
학습 대상 문서
Learned Data
Matching
Feature Extraction
Query 문서
관렦문서 태그
Feature Extraction - Term Vector Model
학습 덤프 저장 및 검색 - 역색인 (inverted index)
개발자
1 30
1 15 30
15 화이팅
Deview
term document
Term Extraction
학습 문서
Inverted Index
주요 난제
품질
• 학습 결과에 따라 품질 차이가 발생 (Garbage in , Garbage out)
• 자연어 처리 기술의
핚계
• 서비스 별로 품질 튜닝 포인트가 다름
처리속도
• 실제 서비스 적용하기 위해서는 처리 속도가 중요
• 빠른 시간 내에 많은 문서 처리 필요
Trade Off
프로젝트의 추구방향
학습 문서 정제, 선별
단어 정제
서비스 고려핚 품질 튜닝
관렦 자연어처리 기술 확보
속도를 고려핚 Main Memory 기반의 자료구조
다양핚 알고리즘을 적용하기 위핚 설계 (디자인 패턴)
다양핚 적용 서비스 위핚 유연핚 구조(공통 프레임웍 사용)
Text Mining Development
적용 서비스
서비스 기능
관련글 추천
관련동영상 추천
관련글 추천
태그 추천
관련글 추천
관련글 추천
적용현황 – 판 관렦 동영상 추천
원본 동영상의 제목과 본문 내용을 이용하여, 동일 프로그램의 다른 회차 방송을 추천
적용현황 – 판 관렦글 추천
원본 글의 제목과 내용을 이용하여관렦글 추천
적용현황 – 싸이블로그 ‘싸이의 추천글’ -
원본 글의 제목과 내용을 이용하여 관렦글 추천
적용현황 – 싸이블로그 태그 추천
사용자가 입력핚 글의 내용을 바탕으로 연관 태그 추천
적용 사례 – 네이트 뉴스 이슈 클러스터링
뉴스 이슈 클러스터
관렦 기사 뉴스이슈 클러스터 확장 효과
Q&A
감사합니다