21
Google 을 을을을을 을을 By Sid

구글을 지탱하는 기술

Embed Size (px)

DESCRIPTION

구글을 지탱하는 기술

Citation preview

Page 1: 구글을 지탱하는 기술

Google 을 지탱하는 기술

By Sid

Page 2: 구글을 지탱하는 기술

구글을 지탱하는 기술

Page 3: 구글을 지탱하는 기술

구글을 지탱하는 기술 – chapter1.ppt

Page 4: 구글을 지탱하는 기술

Index

1. First Appearance of Google

2. Main Concepts3. Search Engine Structure

- ‘s Roll - Back-end Structure - Index Structure

4. Total Structure

Page 5: 구글을 지탱하는 기술

First Appearance of Google

• Why?

Get useful results

• Who?

Sergey Brin & Larry Page

Page 6: 구글을 지탱하는 기술

Main Concepts

Hardware expands

Ranking Function

– Page Rank

– Anchor Text– Word

Page 7: 구글을 지탱하는 기술

Search Engine Structure

Search EngineInternet

Page 8: 구글을 지탱하는 기술

Search Engine Structure

Search Server’s Roll

• 통신 관리

• 요청 해석하여 처리할 내용 판단

• 인덱스에서 필요한 정보 찾아냄

• 결과를 편집해 이용자에게 보냄

Search

ServerIndex

Back-end

Page 9: 구글을 지탱하는 기술

Search Engine Structure

Back-end’s Roll

• Crawling

•Web page 수집해 오는 기술

•많은 시간 -> 복수의 crawler 사용

•수집한 것을 Repository 에 보관

• Creating Index

•Repository 에 저장된 web page 로 Index 를 만들어 냄

•구조분석 , 단어처리 , 링크 처리 랭킹 등

Search

ServerIndex

Back-end

Page 10: 구글을 지탱하는 기술

Search Engine Structure

Index’s Roll

• 주어진 Data 를 안전하게 저장

• 요청 받은 Data 를 찾아냄

• Search Engine 의 Data Base 역할

Search

ServerIndex

Back-end

Page 11: 구글을 지탱하는 기술

Search Engine Structure Back-end Structure

Crawling

Web page 수집해 오는 기술

초기 Google 2400 만개 Web Page 등록

초당 avg40page 를 유지하기 위해선동시에 수백 개의 download 유지

-> 현재는 ??

구글 검색했을 때 3,070,000,000 개 결과

Page 12: 구글을 지탱하는 기술

Search Engine StructureBack-end Structure

Crawler

URL server 가 전체 crawler 지휘

각 crawler 는 지시에 따라 Web Page download

Repository 에 임시 저장

• docID – 고유 숫자 값• url – URL• text – 압축물 • etc. – date, page length…

URL server

crawler

crawler

crawler

Internet

Repository

Page 13: 구글을 지탱하는 기술

Search Engine StructureBack-end Structure

Crawler

주소해석이 시간 많이 소요-> 내부에 DNS cache 관리

Repository 에 저장후 URL server 가 다음주소 할당

URL server

crawler

crawler

crawler

Internet

Repository

Page 14: 구글을 지탱하는 기술

Search Engine StructureBack-end Structure

Creating Index

Analyzing Web Page struc-tures

DocIndex – Web Page 의 기본정보 저장– docID 를 key 로 사용

URLlist– url 을 key 로 사용– docID 를 가져오기 위함

<html><head>

<title> 세종대학교 </ti-tle>

</body><h1> 학사정보 <h1>

….

docIDurl1

Se-jong.ac.kr

• Title• 기타

• 세종대학교

• …

DocIndexdocID url title etc.

URLlisturl docID

Page 15: 구글을 지탱하는 기술

Search Engine StructureBack-end Structure

Creating Index

Word Index

Lexicon – word -> wordID

Barrels – docID wordID position size etc.

Inverted Index – wordID 를 Key 로 사용

Lexicon

word wordID

세종 101

대학교 102

학사 201

정보 202

Barrels

Barrels

docID wordID#1Position#

1Size#1 Etc.#1

Position#2

Size#2 Etc.#2

wordID#2Position#

1Size#1 Etc.#1

Position#2

Size#2 Etc.#2

Page 16: 구글을 지탱하는 기술

Search Engine StructureBack-end Structure

Creating Index

Link Index

URLlistLinks

Anchortext- A information of linked page

docIDurl1

Se-jong.ac.kr

URLlist Sejong.ac.kr 1 Cyworld.com 3

docIDurl3

Cyworld.-com

Link

Links 1 3

Page 17: 구글을 지탱하는 기술

Search Engine StructureBack-end Structure

Creating Index

Ranking Index

Page Rank - Link

Anchortext Word - Barrels

Web Page 사이의 link 를 일종의 투표처럼 분석 -> 더 많은 link 를 받은 문서 = 더 좋은 문서

Page 18: 구글을 지탱하는 기술

Search Engine Structure Index Structure

DocIndex– Web Page 의 기본정보 저장– docID 를 key 로 사용

Lexicon– word -> wordID

Barrels– storages

DocIndex

Lexicon

Barrels

Page 19: 구글을 지탱하는 기술

Total Structure

Internet

SearchServ

er

Index

DocIndex

Lexicon

BarrelsBarrelsBarrels

Back-end

URL server

Repository

crawler

crawler

crawler

Struc-ture

word

Link

RankingLink

s

URLlist

User

Page 20: 구글을 지탱하는 기술

Thanks for your attention

Page 21: 구글을 지탱하는 기술