55
2014.7.4() 박진호([email protected]) 2014 디지털도서관운영과정

digital archiving

Embed Size (px)

DESCRIPTION

2014년 7월 3일 국립중앙도서관 사서교육문화과 디지털도서관운영과정

Citation preview

Page 1: digital archiving

2014.7.4(금) 박진호([email protected])

지 털 아 카 이 빙

2014 디지털도서관운영과정

Page 2: digital archiving

1

This work is licensed under the Creative Commons 저작자표시-비영리-변경금지 2.0 대한민국 License. To view a copy of this license, visit http://creativecommons.org/licenses/by-nc-nd/2.0/kr/ or send a letter to Creative Commons, 444 Castro Street, Suite 900, Mountain View, California, 94041, USA.

이 자료는 네이버에서 제공한 나눔글꼴이 적용되어 있습니다http://hangeul.naver.com/font

Page 3: digital archiving

미션

내 폰 속의 소중한 사진 1장을 50년간 보존해서

사랑하는 가족에게 전달하기.

2

Page 4: digital archiving

아카이브, 아카이빙하면 떠 오르는 것

3

Page 5: digital archiving

디지털아카이빙

늘마주하는일상

Page 6: digital archiving

여행을 가면

[출처: Google Plus Community - Amazing Places to See, @Lis Marwi / @Sabias Que? / @Hugh Zhu

5

Page 7: digital archiving
Page 8: digital archiving
Page 9: digital archiving
Page 10: digital archiving
Page 11: digital archiving
Page 12: digital archiving

되돌아 보기

사진촬영

웹에업로드(공유)

별도저장(USB, 웹저장장치)

인쇄

삭제

메타데이터 입력 보존저장 보존 정리

Page 13: digital archiving

Archive

• 디지털을 통해 공유되고 있는 막대한 양의 자료와 정보들에 대해운영자

• 관심별 혹은 정보 내용 별로 구분되어 저장, 관리, 공유되고 있는웹사이트

• 인터넷상의 호스트 컴퓨터로 데이터나 소프트웨어를 보존하고있는 곳

• 대규모 기록이나 자료의 수집• 디지털화한 데이터를 압축하는 기술이나 방법• 인터넷상의 호스트 컴퓨터로 데이터나 소프트웨어를 보존하고있는 곳

12

Page 14: digital archiving

Digital Archiving

• 디지털정보자원을 수집, 저장, 관리, 공유(서비스)하는 일체의

행위

13

Page 15: digital archiving

Digital Curation

• 디지털 정보(자산)의 유지, 보존과 관련된 활동– 디지털 정보(자산)의 아카이빙, 수집, 유지, 영구보존활동– 현재 및 미래의 이용자들이 활용할 수 있도록 디지털 정보자원의 장기보존을 위한 프로세스

• 이슈사항– 검증된 디지털콘텐츠의 수집– 디지털정보의 검색 지원– 수집 컨텐츠의 신뢰성, 무결성 보증

14

Page 16: digital archiving

Digital Archiving

• Digital archiving은 curation 활동을 의미하며, 다음의 활동(과정)을 보장해야 함– 정확한 데이터의 선택– 정확한 데이터의 저장– 접근 가능한 데이터– 논리적, 물리적 데이터 통합이 지속적으로 유지됨– 데이터는 안전하고 확실함

[출처: Lord & MacDonald, e-Science Data Curation Report, 2003]

15

Page 17: digital archiving

Digital Archiving

• 지속적인 가치를 가졌다고 판단되는 디지털 객체를 장기간 관리

하는 활동 또는 가치 있는 디지털 정보자원을 선별하여 디지털

콘텐츠와 여러 기능들을 디지털 정보자원의 생명주기별 보존 관

리하여 미래 이용자들이 어려움 없이 정보를 활용할 수 있도록

하는 전반적인 작업

• 디지털환경에서의 아카이브는 다양한 디지털 정보자원의 소장

및 보존, 접근 기능을 지닌 시스템 또는 그러한 기능을 가진 프로

그램 자체

16

Page 18: digital archiving

Digital Preservation

• Digital preservation은 아카이빙 활동의 일환

• 기술적인 변화에 상관없이 데이터에 지속적으로 접근가능해야

하고, 이해할 수 있어야 함

• 메타데이터를 포함한 콘텐츠 파일을 갖고 있어야 함

• 디지털의 발전에 따른 퇴화/기존의 디지털 자료 보호

• 기술변화에 대항하여 데이터의 진본성 유지

17

Page 19: digital archiving

18

왜 우리는 디지털 아카이빙을 고민하는가?

Page 20: digital archiving

문제는 Digital

• 디지털정보 생산량이 연평균 57%씩 성장해 2010년에는 9,880

억GB의 정보가 생산될 것으로 전망

• 이는 한 사람이 일년간 만들어 내는 정보는 150GB에 이르며 이

를 300페이지 책으로 환산하면 1만3,300권에 달하는 분량

[출처: EMC, IDC ‘전세계 디지털정보 성장 전망 보고서’]

19

Page 21: digital archiving

문제는 한국의 Digital

• 2007년 국내 생성·복제 정보 총량 : 약 2701PB

– MP3 파일로는 6752억5천만곡

– 1메가바이트 용량인 500페이지 책으로 환산하면 서울시 면적 전체를 1.5m 높이로 쌓을 수 있는 분량(2조7000억권)

• 전세계 인구 1인당 평균 생산량 : 150GB

• 한국 인구 1인당 생산량 : 330GB

[출처: EMC, IDC ‘전세계 디지털정보 성장 전망 보고서’]

20

Page 22: digital archiving

21

RT, 인용, 복사물 등의 문제 고려

Page 23: digital archiving

디지털 정보자원

PDF

hwp

Ms-office

Image(Jpeg 등)

HTML(WEB)

DB

Video

Audio

22

Page 24: digital archiving

23

Source: Royal Pingdom

Page 25: digital archiving

“ How Much Information, 2003, UC Berkeley”

• “ 얼마나 많은 정보가 세상에서 생겨나고 있는가?”

Stored Information Information Flows

Paper Film Magnetic Optical Broadcast Telephony Internet

[지식정보의 구분]

• 2002년 한 해에 새로운 정보로서 약 5엑사바이트의 프린트, 필름, 마그네틱, 옵티컬 저장매체 생산됨

• 2002년 한 해 생산정보가 지난 3년보다 2배이상 많음• 2002년 한 해에 약 18엑사바이트의 새로운 전화, 라이오, TV, 인터넷 정보가 저장

24

Page 26: digital archiving

디지털정보 생명주기(DCC Curation Lifecycle Model)

25

Page 27: digital archiving

디지털정보 생명주기(DCC Curation Lifecycle Model)

구분 내용

데이터(data)

• 디지털의형태를가진모든정보• 디지털개체와구조화된데이터베이스시스템을모두포함

전체활동

full lifecycle action

메타데이터와표현정보(description and

representation information)

• 관리, 기술(technical), 설명(description), 구조, 보존메타데이터

• 디지털자원과메타데이터의이해와렌더링을하기위해필요한표현정보

보존계획(preservation planning) • 수명주기내의모든행위를제어하기위한실행계획

협력과참여(community watch and

participation)

• 관련된단체활동에대한관찰• 표준, 도구, 소프트웨어개발에참여

큐레이션과보존(curate and preserve)

• 수명주기동안큐레이션과보존을원활히하기위한관리행위를계획

26

Page 28: digital archiving

디지털정보 생명주기(DCC Curation Lifecycle Model)

구분 내용

지속활동

Sequential action

개념화(conceptualise) • 데이터의생성, 수집, 저장에관한계획

생산/ 접수(create or receive)

• 데이터의생성시점에서관리, 기술, 구조, 보존메타데이터가모두포함되도록한다.

• 접수되는데이터의메타데이터수집을위한명확한정책

평가와선택(appraise and select)

• 데이터를평가하고장기보존에적합한지선택• 이를위한지침, 정책, 법적요구사항

입수(ingest)

• 기록관, 저장소, 데이터센터로데이터전송• 이를위한지침, 정책, 법적요구사항

보관(store)

• 데이터를완전하게보관• 이를위한표준

접근, 활용, 재활용(access, use and reuse)

• 예상되는이용자가데이터에접근할수있도록할것• 접근제어와승인절차

변환(transform)

• 기존의데이터로부터새로운데이터를생성• 마이그레이션, 부분발췌, 발행등.

27

Page 29: digital archiving

디지털정보 생명주기(DCC Curation Lifecycle Model)

구분 내용

부가활동

Occasional action

폐기(dispose)

• 장기보존할것으로선택되지않은데이터의처리• 적합한지침, 정책, 법적요구사항

재생(reappraise)

• 적합하지않은것으로선택됬던데이터를향후활용과재선택을위해재생

마이그레이션(migrate)

• 데이터를다른포맷으로마이그레이션• 하드웨어, 소프트웨어의존성의탈피를위한경우포함

28

Page 30: digital archiving

Digital Contents 보존

Hardware어떤 하드웨어에서 구동되는가?

Software어떤 소프트웨어를 통해 구현되었는가?

Contents file어떤 형식의 콘텐츠 파일인가?

29

Page 31: digital archiving

Digital Contents 보존

Emulation노후 된 컴퓨팅 환경과 노후 된 파일들을 재창조하기 위해현대의 하드웨어/소프트웨어를 이용하여 재현

Migration좀더 나은 운영체제(환경)으로 이동데이터베이스의 이동저장장치의 이동데이터를 현재 혹은 더 다양한 접근이 가능한 포맷으로 변환

30

Page 32: digital archiving

ISO 14721 OAIS

• ISO 14721 Space data and information transfer systems -Open archival information system - Reference model

• 개방형 시스템아니라 표준 자체의 기본안과 미래 개발 권고안이오픈된 상태로 개발 될 것임을 의미– 1999년 NASA(National Aeronautics and Space Administration)– CCSDS(Consultative Committee for space Data Systems)제안– 2002년 ISO 표준으로 확정 공포– (미국 중심으로 남미, 유럽 10여개 국가의 우주항공국들이 공동 수행)

우주 데이터 및 정보 전송 시스템(항공, 우주관련 표준)

….의 기준, 체계, 가이드라인

개방형 문서(기록물)/문서보관소(기록물보관소) 정보 시스템

31

Page 33: digital archiving

ISO 14721 OAIS-용어정의

• 디지털 콘텐츠 : 디지털형태의 텍스트, 이미지, 오디오, 비디오등

• 보존 : 보존대상을 형태와 콘텐츠 면에서 변화 없이 그대로 유지시키는 것

• 디지털 정보자원은 매체의존도가 높으면서도 휘발성이 강함– 훼손, 유실 등의 위험성이 크므로 장기보존을 위한 연구가 필요함

32

Page 34: digital archiving

ISO 14721 OAIS-용어정의

• Content Management– 콘텐츠를 만들고 이용하기 위해 사용하는 도구, 방법, 기술 등을 지칭

• Records Management– 정의된 생명주기에 적합하도록 콘텐츠를 보존하기 위해 사용하는도구, 방법, 기술 등을 지칭

• Archives– 레코드의 보존, 장기 저장(storage-기억장치)을 위해 사용하는 저장소(Repository)

33

Page 35: digital archiving

34

OAIS는 정답인가?

OAIS 참조모형은 개념적으로 최상위 차원에서 디지털아카이빙을정의하는 것으로 앞으로 구축될 디지털 아카이브는 참조모형이 제시한 기능과 환경을 따라야 하지만 적용시키려는 모 기관의 목적, 시스템환경 및 제반 환경과 같은 다양한 요소들을 고려하여 개발되어야 함

Page 36: digital archiving

35

OAIS는 정답인가?

• OAIS는 시스템을 디자인하기 위한 설계도가 아니라 단순한 참조모델(개념적 프레임워크)

• 최소한의 기본 틀만 제공• 장기보존 정책을 수행하고자 하는 기관의 상황과 목적, 시스템,

제반 환경에 따라서 다양한 요소들이 부가적으로 고려되어야 함

Page 37: digital archiving

OAIS 기본모형

OAISProducer

Management

정보제공자 미래 이용자

Information이 Package 형태로 소통 = IP

IP IPIP

Consumer

Page 38: digital archiving

Information Package

IP

ContentInformation

PreservationDescriptionInformation

콘텐츠 정보: 보존대상(기관의 정책 등에 따라 결정)

보존기술정보: 시간 경과 후에도콘텐츠 정보를 이해할 수 있도록

metadata

Page 39: digital archiving

Information Package

ContentInformation

PreservationDescriptionInformation

Packaging InformationPackage 1

DescriptiveInformation

about Package1

Page 40: digital archiving

39

PreservationDescriptionInformation

인증정보(Fixty Information)

CI의 물리적/논리적 무결성인코딩 오류점검(validation/

verification keys)

문맥정보(Context Information)

다른 CI와의 관련성

출처정보(Provenance Information)

CI의 기원, 출처. 원본에 관한 신뢰성

참조정보(Reference Information)

CI의 식별자 제공. 이용자가 관심있는 콘텐츠정보에 접근가능하도록 함

Page 41: digital archiving

40

OAISProducer

Management

IP IP

Consumer

SIP

AIP

DIP

IP

DIP PICI PDI

Page 42: digital archiving

41

ArchivalStorage

Ingest Access

Preservation Planning

Administrator

DataManagement

PRODUCER

CONSUMER

queries

result setsorder

SIP AIP AIP DIP

Descriptiveinfo

Descriptiveinfo

Page 43: digital archiving

Ingest

보존

흡수 접근

보존계획

운영

데이터관리PRODUCER

CONSUMER

SIP AIP AIP DIP

DI DI

1. SIP입수2. 입수한 SIP 진본성 및 품질확인(quality scan)3. AIP생성4. AIP로부터 DI 추출5. AIP는 아카이브 보존기능으로 전송6. DI는 데이터관리 기능으로 전송

Page 44: digital archiving

보존

1. 흡수 기능으로부터 AIP입수2. AIP를 장기보존(permanent storage)로 전송, 적절한 보존전략선정(포맷이전, 또는

하드웨어 에뮬레이션 등), 적절한 보존매체 선정 : 온라인, 오프라인 보존 포함3. 정기적 매체이전(periodic refreshment) : 새로운 저장매체로 정기적으로 이전 시킴.

정기적/지속적인 백업 수행,4. 예기치 못한 재난 방지를 위해 물리적으로 분리된 공간에 복제본 저장(Disaster

Recovery)5. 오류점검 : 아카이브 보존기간 동안 AIP의 논리적, 물리적 무결성 보존을 위하여

주지적으로 CI와 PDI의 오류 여부 점검6. 접근기능으로부터 요청이 있을 경우 저장된 AIP의 복제본을 접근기능으로 전송

보존

흡수 접근

보존계획

운영

데이터관리PRODUCER

CONSUMER

SIP AIP AIP DIP

DI DI

Page 45: digital archiving

데이터 관리

1. 흡수 기능으로부터 기술정보 입수2. 기술정보와 시스템 정보가 수록된 데이터베이스 유지/관리3. 접근모듈로부터 질문을 받아 결과를 생성

보존

흡수 접근

보존계획

운영

데이터관리PRODUCER

CONSUMER

SIP AIP AIP DIP

DI DI

Page 46: digital archiving

접근

1. 데이터관리모듈로부터 기술정보를, 아카이브 보존 모듈로부터AIP를 입수

2. DIP를 생성3. 이용자의 질문과 요구사항들을 받아서 해당 DIP 전송

보존

흡수 접근

보존계획

운영

데이터관리PRODUCER

CONSUMER

SIP AIP AIP DIP

DI DI

Page 47: digital archiving

운영

1. 생산자와의 data submission 관련 정책적 협상2. OAIS의 핵심모듈 정기적 점검 및 업데이트3. 시스템 하드웨어, 소프트웨어 관련 기술 점검 및 모니터링4. 아카이브 내 콘텐츠 무결성 점검 및 업데이트5. 아카이브 관련 정책과 구체적 절차 점검 및 업데이트6. 이용자 요구사항 점검 및 모니터링, 시스템에 반영

보존

흡수 접근

보존계획

운영

데이터관리PRODUCER

CONSUMER

SIP AIP AIP DIP

DI DI

Page 48: digital archiving

보존계획

1. 생산자와 이용자 커뮤니티의 요구사항 점검2. 최근 기술변화 점검

• 요구사항에 부합하는 기술변화 점검 : 데이터포맷, 미디어선정, 선호하는소프트웨어패키지, 새로운 컴퓨터 플랫폼, 아카이브와의 커뮤니케이션 메커니즘

• 새롭게 출현하는 디지털기술, 정보표준, 컴퓨팅 플랫폼(소프트웨어, 하드웨어) 점검하여, 매체이전 고려

3. 보존전략과 표준개발• 생산자, 이용자 커뮤니티, 최근 정보기술의 경향과 변화를 조사/파악하여 현

보존시스템을 수정, 업그레이드하고, 향후 중장기적으로 적절한 보존전략과 표준을개발

4. 패키징 디자인과 마이그레이션 계획 개발• 새로운 정보패키지 디자인

보존

흡수 접근

보존계획

운영

데이터관리PRODUCER

CONSUMER

SIP AIP AIP DIP

DI DI

Page 49: digital archiving

48

이슈, 쟁점사항

48

Page 50: digital archiving

Digital Archive Issue

• 이용자의 요구사항 : 미래의 이용자, 현재의 이용자는 어떤 서비

스, 어떤 정보를 요구할 것인가?

• 메타데이터 처리 : 입수, 관리, 서비스, 영구보존에 사용할 메타

데이터는 어떻게 처리해야 하는가?

• 생명주기와 관련된 재처리 시 메타데이터 입력을 어떻게 할 것인

가?

Page 51: digital archiving

Digital Archive Issue

• 성문화된 정책과 전략 수립 필요– 디지털정보자원의 입수, 관리, 서비스, 영구보존 등 전반에 대한 정책 수립 필요

– 타 시스템(리파지토리 등)과의 연계를 위한 전략 필요

• 디지털정보자원 자체의 보호(보안)– 레코드의 생명주기 동안 하드웨어/소프트웨어 환경이 지속적으로변화

– 스토리지 장치의 취약성(디스크 등)

– 장치의 노후화

– 데이터 품질저하

– 하드웨어/소프트웨어의 노후화

Page 52: digital archiving

Digital Archive Issue

• 물리적인 인프라의 구성은 어떻게 할 것인가?– 스토리지 이중화, 가상화

– 백업시스템 구성

– DR 센터 구성(DR간 연계)

• 어떤 표준, 어떤 시스템을 적용할 것인가?– Open standards

– Open source

– Open Archives

– Open access

– Open storage

– Open repositories

Page 53: digital archiving

Digital Archive Issue

• 또 다른 저장소(도서관)와의 상호 협력:– 상호협력을 위한 전략적 수준의 결정

– 정책 개발

– 연구/개발

– 표준개발(예, OAIS 등)

– 정보자원 공유를 위한 서비스 개발

Page 54: digital archiving

이미지 출처

• https://www.flickr.com/photos/thelotuscarroll/8731535439/• http://www.flickr.com/photos/chaparral/754352175/• http://www.flickr.com/photos/entreclick/5039218992/• http://www.flickr.com/photos/screenpunk/2787210951/• http://www.flickr.com/photos/pleeker/5379549514/• http://www.flickr.com/photos/antonfomkin/4311859547• http://www.flickr.com/photos/ilamont/7463062672/• http://www.flickr.com/photos/bierlos/4978292752• http://www.flickr.com/photos/jaysalikin/4850100330/• http://www.flickr.com/photos/auggie_tolosa/3368818016• http://www.flickr.com/photos/ty_photo/4229031981/• https://plus.google.com/u/0/communities/109933143164651576714• http://www.flickr.com/photos/anotherphotograph/398534576/• https://www.flickr.com/photos/hindrik/1919291052• https://www.flickr.com/photos/dolescum/3567689465• https://www.flickr.com/photos/hamadryades/2549161782

53

Page 55: digital archiving

Q & A 감 사 합 니

2014 디지털도서관운영과정

54