22
PHD. DO QUANG VINH PHD. DO QUANG VINH Email: Email: [email protected] [email protected] HANOI - 2013 HANOI - 2013

PHD. DO QUANG VINH Email: dqvinh@live HANOI - 2013

  • Upload
    vea

  • View
    73

  • Download
    4

Embed Size (px)

DESCRIPTION

PHD. DO QUANG VINH Email: [email protected] HANOI - 2013. BÀI GIẢNG THƯ VIỆN SỐ. TS. ĐỖ QUANG VINH Email: [email protected] HÀ NỘI - 2013. NỘI DUNG. TỔNG QUAN VỀ THƯ VIỆN SỐ DL MÔ HÌNH HÌNH THỨC CHO THƯ VIỆN SỐ DL CHỈ MỤC TÀI LIỆU TÌM KIẾM THÔNG TIN - PowerPoint PPT Presentation

Citation preview

Page 1: PHD. DO QUANG VINH Email: dqvinh@live HANOI - 2013

PHD. DO QUANG VINHPHD. DO QUANG VINH

Email:Email: [email protected]@live.com

HANOI - 2013HANOI - 2013

Page 2: PHD. DO QUANG VINH Email: dqvinh@live HANOI - 2013

BÀI GIẢNG THƯ VIỆN SỐ

TS. ĐỖ QUANG VINH

Email: [email protected]

HÀ NỘI - 2013

Page 3: PHD. DO QUANG VINH Email: dqvinh@live HANOI - 2013

33

NỘI DUNG

I. TỔNG QUAN VỀ THƯ VIỆN SỐ DL

II. MÔ HÌNH HÌNH THỨC CHO THƯ VIỆN SỐ DL

III. CHỈ MỤC TÀI LIỆU

IV. TÌM KIẾM THÔNG TIN

V. CÁC CHUẨN SỬ DỤNG TRONG THƯ VIỆN SỐ

VI. THỰC HÀNH HỆ PHẦN MỀM THƯ VIỆN SỐ GREENSTONE

Page 4: PHD. DO QUANG VINH Email: dqvinh@live HANOI - 2013

44

III. CHỈ MỤC TÀI LIỆU VĂN BẢN 3.1 MỞ ĐẦU Định nghĩa 3.1 (từ để nhận dạng đối với chỉ mục): là một dãy

cực đại của các ký tự chữ và số, nhưng giới hạn tối đa 256 ký tự và tối đa 4 ký tự số

Bảng 3.1 - CSDL TREC Số tài liệu N 741856Số thuật ngữ F 333338738Số thuật ngữ riêng biệt n535346Số con trỏ chỉ mục f 134994414Kích thước tổng (MB) 2070.29

Page 5: PHD. DO QUANG VINH Email: dqvinh@live HANOI - 2013

55

3.2 CHỈ MỤC TỆP ĐẢO IFID Định nghĩa 3.2 (Đỗ Trung Tuấn): Chỉ mục là bảng dữ liệu hay cấu

trúc dữ liệu dùng để xác định vị trí của các dòng trong tệp theo điều kiện nào đó

Định nghĩa 3.3 (Folk M.J., Zoellick B., Riccardi G.): Chỉ mục là một cách tìm kiếm thông tin

Định nghĩa 3.4: Chỉ mục là một cơ chế nhằm định vị thuật ngữ cho trước trong văn bản

Định nghĩa 3.5 (chỉ mục tệp đảo IFID): Đối với mỗi một thuật ngữ trong từ điển, một IF chứa một danh sách đảo (IL) lưu trữ một danh sách con trỏ tới tất cả xuất hiện của thuật ngữ đó trong văn bản chính, trong đó mỗi một con trỏ trong thực tế là số tài liệu mà thuật ngữ đó xuất hiện. IL đôi khi được coi là một danh sách mục lục và các con trỏ là mục lục

Đây là phương pháp chỉ mục tự nhiên nhất, gần tương ứng với chỉ mục của một cuốn sách và với cách dùng mục lục truyền thống

Page 6: PHD. DO QUANG VINH Email: dqvinh@live HANOI - 2013

66

Bảng 3.2 - Văn bản mẫu; mỗi dòng là một tài liệu

TÀI LIỆU VĂN BẢN

1 Information retrieval is searching and indexing

2 Indexing is building an index

3 An inverted file is an index

4 Building an inverted file is indexing

Page 7: PHD. DO QUANG VINH Email: dqvinh@live HANOI - 2013

77

Bảng 3.3 - IF đối với văn bản của bảng 3.2Số Thuật ngữ IL(tài liệu; vị trí)1 an (2;4), (3;1), (3;5), (4;2)2 and (1;5)3 building (2;3), (4;1)4 file (3;3), (4;4)5 index (2;5), (3;6)6 indexing (1;6), (2;1), (4;6)7 information (1;1)8 inverted (3;2), (4;3)9 is (1;3), (2;2), (3;4), (4;5)10 retrieval (1;2)11 searching (1;4)

Page 8: PHD. DO QUANG VINH Email: dqvinh@live HANOI - 2013

88

Định nghĩa 3.6: Độ hạt (granularity) của một chỉ mục là tính chính xác để nhận dạng vị trí của thuật ngữ

Bảng 3.4 - IF mức từ đối với văn bản của bảng 3.2Số Thuật ngữ (Tài liệu; từ)1 an <4; (2;4), (3;1), (3;5), (4;2)>2 and <1; (1;5)>3 building <2; (2;3), (4;1)>4 file <2; (3;3), (4;4)>5 index <2; (2;5), (3;6)>6 indexing <3; (1;6), (2;1), (4;6)>7 information <1; (1;1)>8 inverted <2; (3;2), (4;3)>9 is <4; (1;3), (2;2), (3;4), (4;5)>10 retrieval <1; (1;2)>11 searching <1; (1;4)>

Page 9: PHD. DO QUANG VINH Email: dqvinh@live HANOI - 2013

99

Xây dựng chỉ mục tệp đảo IFID

Xây dựng chỉ mục là một trong những nhiệm vụ thách thức nhất phải đương đầu khi xây dựng một CSDL.

Ở đây, ta đề cập đến bài toán xây dựng chỉ mục tệp đảo IFID, vì đây là dạng chỉ mục thiết thực nhất đối với cả hai truy vấn BQ và RQ.

Quá trình xây dựng chỉ mục được coi là sự đảo văn bản. Từ điển The Concise Oxford Dictionary định nghĩa “sự đảo là đảo lộn trên dưới, đảo vị trí, trật tự hoặc quan hệ bình thường” và đây đúng là điều phải làm để tạo lập chỉ mục.

Page 10: PHD. DO QUANG VINH Email: dqvinh@live HANOI - 2013

1010

Xét văn bản mẫu ở bảng 3.2

Mỗi tài liệu của văn bản chứa một số thuật ngữ chỉ mục và

mỗi một thuật ngữ chỉ mục xuất hiện ở một số dòng. Quan hệ

có thể được biểu diễn với một ma trận tần suất, trong đó mỗi

một cột tương ứng với một từ, mỗi một hàng tương ứng với

một tài liệu và số chứa tại hàng và cột bất kỳ là tần suất của từ

chỉ định bởi cột đó. Ma trận tần suất đối với văn bản của bảng

3.2 được trình bày ở bảng 5.1

Page 11: PHD. DO QUANG VINH Email: dqvinh@live HANOI - 2013

1111

Bảng 5.1 - Ma trận tần suất đối với văn bản của bảng 3.2

Thuật ngữ

information retrieval searching indexing building index inverted file

1 1 1 - 1 - - - -

2 - - - 1 1 1 - -

3 - - - - - 1 1 1

4 - - - 1 1 - 1 1

Page 12: PHD. DO QUANG VINH Email: dqvinh@live HANOI - 2013

1212

Bảng 5.2 - Chuyển vị tương đương của ma trận tần suất của bảng 5.1

Số Thuật ngữTài liệu

1 2 3 41 information 1 - - -2 retrieval 1 - - -3 searching - - - -4 indexing 1 1 - 15 building - 1 - 16 index - 1 1 -7 inverted - - 1 18 file - - 1 1

Page 13: PHD. DO QUANG VINH Email: dqvinh@live HANOI - 2013

1313

GIẢI THUẬT 5.1 ĐẢO DANH SÁCH MÓC NỐI

1. Sản xuất một chỉ mục đảo đối với một CSDL tài liệu /* Khởi tạo */

2. Tạo ra một cấu trúc từ điển rỗng S./* Pha 1 - tập hợp các xuất hiện thuật ngữ */

Đối với mỗi một tài liệu Dd trong CSDL, 1 ≤ d ≤ N,a. Đọc Dd , phân tích cú pháp nó thành các thuật ngữ chỉ mục

b. Đối với mỗi một thuật ngữ chỉ mục t Dd

i. Cho fd,t là tần suất của thuật ngữ t trong Dd

ii. Tìm kiếm S đối với tiii. Nếu t không có trong S, chèn nóiv. Thêm một nút lưu trữ <d, fd,t> vào danh sách

tương ứng với thuật ngữ t

Page 14: PHD. DO QUANG VINH Email: dqvinh@live HANOI - 2013

1414

3. /* Pha 2 - đầu ra của IF */

Đối với mỗi một thuật ngữ 1 ≤ t ≤ N

a. Bắt đầu một mục vào IF mới

b. Đối với mỗi một <d, fd,t> trong danh sách tương ứng với t,

thêm <d, fd,t> vào mục vào IF này

a. Nếu yêu cầu, nén mục vào IF

b. Thêm mục vào IF này vào IF. Thời gian đảo T yêu cầu là:

T = Btr + Ftp + (đọc và phân tích cú pháp văn bản)

I(td + tr) (ghi IF nén)

Page 15: PHD. DO QUANG VINH Email: dqvinh@live HANOI - 2013

1515

Hình 5.1 - Cấu trúc dữ liệu biểu diễn IF đối với văn bản của bảng 3.2

information 1 1  

retrieval 1 2  

searching 1 4  

indexing 1 6 2 1 4 6

buiding 2 3 4 1  

index 2 5 3 6  

inverted 3 2 4 3  

file 3 3 4 4  

Page 16: PHD. DO QUANG VINH Email: dqvinh@live HANOI - 2013

1616

3.3 CHỈ MỤC TỆP KÝ SỐ SFIDBảng 3.5 – Mã hoá chồng lên của tài liệu 2 đối với SF

Thuật ngữ Ký số thuật ngữ indexing 0001 0000 1100 0100is 0100 0100 0001 0000building 0101 0011 0000 0000an 0000 0100 0100 1100index 1100 1000 0010 0000Ký số bloc 1101 1111 1111 1110

Tệp ký số SF: là một phương pháp xác suất để chỉ mục văn bản. Mỗi một tài liệu có một ký số liên kết, một xâu bit bắt nội dung tài liệu theo một nghĩa nào đó

Tệp ký số bitslice: Sự truy cập SF có thể được tăng nhanh hơn bằng cách dùng kỹ thuật bitslicing, tức là kỹ thuật chuyển vị ma trận bit

Page 17: PHD. DO QUANG VINH Email: dqvinh@live HANOI - 2013

1717

3.4 SO SÁNH CÁC PHƯƠNG PHÁP CHỈ MỤC Phương pháp chỉ mục tệp đảo IFID và chỉ mục tệp ký số SFID

là hai phương pháp chỉ mục chính tài liệu trong thư viện số. Quy luật chỉ mục tài liệu trong DL: Ở hầu hết các ứng dụng,

IF thực hiện tốt hơn SF trong phạm vi của cả hai kích thước chỉ mục và tốc độ truy vấn. IF nén là phương pháp chỉ mục hữu ích nhất một CSDL lớn các tài liệu văn bản có độ dài có thể thay đổi.

3.5 CÁC MÔ HÌNH NÉN IFID

3.5.1 Đặt vấn đề Khảo sát các mô hình và phương pháp mã hoá để nén IFID CSDL tài liệu trong thư viện số.Chìa khoá của bài toán nén là nhận xét mỗi một IL có thể được lưu trữ như một dãy số nguyên tăng dần.

Page 18: PHD. DO QUANG VINH Email: dqvinh@live HANOI - 2013

1818

3.5.2 Mô hình nén toàn cục

Mô hình không tham số Mô hình Bernoulli toàn cục

3.5.3 Các mô hình nén cục bộ

Mô hình hyperbol cục bộ Mô hình Bernoulli cục bộ Mô hình Bernoulli lệch Mô hình nén nội suy

Page 19: PHD. DO QUANG VINH Email: dqvinh@live HANOI - 2013

1919

3.5.4 Hiệu năng của các mô hình nén chỉ mụcBảng 3.9 - Nén IF bằng số bit/con trỏ đối với TREC

Mô hình Số bit/con trỏMô hình toàn cụcĐơn nguyên 1918Nhị phân 20.00Bernoulli 12.30 6.63 6.38Mô hình cục bộHyperbol 5.89 Bernoulli 5.84Bernoulli lệch 5.44Nội suy 5.18

Page 20: PHD. DO QUANG VINH Email: dqvinh@live HANOI - 2013

2020

NHẬN XÉT:

Các mô hình cục bộ có xu hướng thực hiện nén tốt hơn mô hình toàn cục và không hiệu quả hơn về thời gian xử lý đòi hỏi trong khi giải mã, vì chúng có xu hướng cài đặt phức tạp hơn. Đối với mục đích thực hành, mô hình nén chỉ mục phù hợp nhất là phương pháp Bernoulli cục bộ, cài đặt dùng kỹ thuật mã hoá Golomb

3.6 CÁC HIỆU ỨNG Gộp dạng chữ (case folding) Truy gốc từ (stemming) Từ bỏ qua (stop word)

Page 21: PHD. DO QUANG VINH Email: dqvinh@live HANOI - 2013

2121

TÀI LIỆU THAM KHẢO

1. Đỗ Quang Vinh (2009), Thư viện số - Chỉ mục và Tìm kiếm, Nxb Đại học Quốc gia Hà Nội.

2. Lourdes T.D. (2006), Thư viện số và truy cập mở tài liệu lưu trữ, Nguyễn Xuân Bình và nnk biên dịch, UNESCO, Hà Nội.

3. Arms W.Y. (2003), Digital Libraries, MIT Press, Cambridge.

4. Fox E.A. (2000), Advanced Digital Libraries, Virginia Polytechnic Institue and State University.

5. Lesk M. (2005), Understanding Digital Libraries, 2nd Edition, Morgan Kaufmann, San Francisco.

6. Witten I.H., Bainbridge D. (2003), How to Build a Digital Library, Morgan Kaufmann, San Francisco.

Page 22: PHD. DO QUANG VINH Email: dqvinh@live HANOI - 2013

2222

KẾT THÚC !

TRÂN TRỌNG CÁM ƠN !