Bài giảng Thư viện số - Quách Tuấn Ngọc
Tóm tắt Bài giảng Thư viện số - Quách Tuấn Ngọc: ...t qua mạng. LÝ DO CHÍNH XÂY DỰNG DLThư viện số phân phát thông tin tốt hơn thư viện truyền thống12(tiếp)LỢI ÍCH CỦA DLThư viện số mang thư viện đến người sử dụngMáy tính được sử dụng để tìm kiếm và duyệtThông tin có thể được chia sẻ Thông tin dễ dàng cập nhật hơnThông tin luôn sẵn cóCác dạng thông...hực hiện tốt hơn SF trong phạm vi của cả hai kích thước chỉ mục và tốc độ truy vấn. IF nén là phương pháp chỉ mục hữu ích nhất một CSDL lớn các tài liệu văn bản có độ dài có thể thay đổi. 2.5 CÁC MÔ HÌNH NÉN IFID 2.5.1 Đặt vấn đề Khảo sát các mô hình và phương pháp mã hoá để nén IFID CSDL tài liệu...tích trong của hai trọng số S(Q, Dd) = (3.4) Nếu hạng được coi là một độ đo tầm quan trọng thì trọng số wt của một thuật ngữ t được tính như sau: (3.5) trong đó: ft là số tài liệu chứa thuật ngữ t 32(tiếp) Nhân tử chuẩn hoá để không kể đến phần đóng góp của các tài liệu dài. Do đó, luật tích t...
1 2THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 20083Tính cấp thiếtWorld Wide Web đã xâm nhập vào cuộc sống hàng ngàyGiao diện cho Web tiến triển từ duyệt đến tìm kiếmDL là một trong những hướng nghiên cứu chính về công nghệ thông tin trên thế giớiTổng quan hoạt động nghiên cứu DL Sự bùng nổ về nghiên cứu DL, các dự án và chương trình DL ở Mỹ và trên thế giớiTrọng tâm của các dự án DL Về công nghệ: các phương pháp và công nghệ mới về lưu trữ và tìm kiếm thông tin4(tiếp)Về xã hội: khảo sát CSDL tài liệu và các vấn đề xã hội liên quan tới DL Hoạt động nghiên cứu DL ở MỹCó nhiều hoạt động và chương trình nghiên cứu DL đang được tiến hành ở Mỹ và số lượng tăng nhanh2 dự án DL được tài trợ bởi chính phủ Mỹ là Dự án thư viện số - giai đoạn 2 (DLI-2) và Dự án thư viện số quốc tếDự án thư viện số DLI:Dự án thư viện video số Informedia của Đại học Carnegie Mellon CMU5(tiếp)Dự án dịch vụ thông tin số của Đại học California ở BerkeleyDự án Alexandria của Đại học California ở Santa BarbaraDự án Interspace của Đại học Illinois ở Urbana-ChampaignDự án UMDL của Đại học MichiganDự án InfoBus của Đại học Stanford Các dự án DL chủ yếu khác ở Mỹ:Thư viện quốc hội (Library of Congress)Dự án công nghệ thư viện số DLT của NASADự án FedStats của hơn 70 cơ quan chính phủ khác nhau của Mỹ 6(tiếp)Dự án thư viện số của IBMDự án thư viện số California CDLChương trình thư viện số D-Lib của DARPA (the Defence Advanced Researh Project Agency)Dự án MOA của hai Đại học Cornel và MichiganDự án Open Book của Đại học YaleDự án hợp tác Red Sage của Đại học California ở San Francisco, Công ty AT&T Laboratories và Springer-VerlagDự án TULIP của nhà xuất bản Elsevier Science Publisher 7(tiếp)Hoạt động DL ở các nước khác: Tập trung vào các CSDL tài liệu, nói riêng vào nâng cao truy cập tới các CSDL tài liệu về lịch sử, văn hoá và nghệ thuật: Canada, Anh, Pháp, Đức, Nhật, Hàn quốc, Singapore, Trung quốc, Hồng Kông, Đài loan, Australia, New Zealand8(tiếp)Việt Nam Nhu cầu nghiên cứu DL bắt đầu từ khi hoạch định chiến lược phát triển thông tin - thư viện cho đến năm 2010, 2020, trước xu thế của sự chuyển hướng toàn cầu sang xã hội thông tinXây dựng DL lý tưởng, độc lập, với vốn tư liệu hoàn toàn số hoá, với toàn bộ dịch vụ chuyển sang phương thức điện tử, là không khả thi Xu hướng sẽ xuất hiện nhiều thư viện điện tử là kết quả của quá trình tin học hoá, là các cổng vào thông tin và là một bộ phận của các thư viện lớn truyền thống ở Việt Nam9(tiếp)Con đường mà đại bộ phận thư viện sẽ đi là: kết hợp các nguồn tin truyền thống với hiện đại, bổ sung thêm các tạp chí điện tử toàn văn trên CD-ROM, đặt mua các tạp chí điện tử toàn văn trên mạng, số hoá một phần vốn tư liệu, tự động hoá các dịch vụ và tạo điều kiện cho NSD chủ động khai thác thông tin Hiện nay, một số phần mềm được cài đặt:Giải pháp thư viện điện tử ILIB của công ty CMC ở Thư viện Quốc gia Việt NamGiải pháp thư viện điện tử LIBOL của công ty Tinh vân ở Trung tâm Thông tin khoa học và công nghệ Quốc giaHệ phần mềm thư viện số Greenstone của dự án New Zealand Digital Library ở thư viện Đại học Khoa học tự nhiên TP Hồ Chí Minh10I. TỔNG QUAN VỀ THƯ VIỆN SỐ1. ĐỊNH NGHĨA Định nghĩa 1.1 (Arms W.Y.): DL là một kho thông tin có quản lý với các dịch vụ liên kết, trong đó thông tin được lưu trữ ở dạng số và có thể truy cập qua một mạng. Định nghĩa 1.2 (Chen H., Houston A.L.): DL là một thực thể liên quan tới sự tạo ra các nguồn tin và sự hoạt động thông tin qua các mạng toàn cầu. Định nghĩa 1.3 (Reddy R., Wladawsky-Berger I.): DL là các kho dữ liệu mạng về tài liệu văn bản số, ảnh, âm thanh, dữ liệu khoa học và phần mềm là lõi của Internet hiện nay và các kho dữ liệu số có thể truy cập phổ biến về tất cả tri thức của loài người trong tương lai.11(tiếp)Định nghĩa 1.4 (Sun Microsystems): DL là sự mở rộng điện tử về các chức năng điển hình NSD thực hiện và các tài nguyên NSD truy cập trong thư viện truyền thống. Định nghĩa 1.5 (Witten I.H., Bainbridge D.): DL là các kho đối tượng số, bao gồm văn bản, video và audio cùng với các phương pháp truy cập và tìm kiếm, lựa chọn, tổ chức và bảo trì.Tóm lại, thư viện số là một kho thông tin số khổng lồ có tổ chức với các dịch vụ liên kết qua mạng. LÝ DO CHÍNH XÂY DỰNG DLThư viện số phân phát thông tin tốt hơn thư viện truyền thống12(tiếp)LỢI ÍCH CỦA DLThư viện số mang thư viện đến người sử dụngMáy tính được sử dụng để tìm kiếm và duyệtThông tin có thể được chia sẻ Thông tin dễ dàng cập nhật hơnThông tin luôn sẵn cóCác dạng thông tin mới trở thành thực hiện được Giá của DL4 lĩnh vực kỹ thuật nổi bật đối với DLLưu trữ điện tử trở nên rẻ hơn giấyHiển thị máy tính cá nhân trở nên dùng thích hợp hơnMạng tốc độ cao trở nên phổ biếnMáy tính trở nên di động 13(tiếp)NGHIÊN CỨU TIN HỌC TRONG DLMô hình đối tượng Giao diện NSDChỉ mục và Tìm kiếm thông tin Quản trị và bảo trì CSDLTính liên tácCHỈ MỤC & TÌM KIẾM THÔNG TINSiêu dữ liệu mô tả Chỉ mục tự động Xử lý ngôn ngữ tự nhiên Tài liệu phi văn bản 14(tiếp) Hình - Máy tính trong thư viện số (W.Y.Arms) NSDKho lưu trữHệ thống định vịHệ thống tìm kiếm 15(tiếp)2. Mô hình hình thức cho DL Cơ sở toán học Dòng Định nghĩa 1.14: Một dòng là một dãy có miền giá trị là một tập không rỗng.Cấu trúcĐịnh nghĩa 1.15: Một cấu trúc là một bộ (G, L, F), trong đó G = (V, E) là một dồ thị có hướng với tập đỉnh V và tập cạnh E, L là một tập giá trị nhãn và F là một hàm gán nhãn F : (V E) LKhông gian Định nghĩa 1.23: Một không gian là một không gian đo được, không gian độ đo, không gian xác suất, không gian vector hoặc một không gian topo 16 (tiếp)Kịch bản Định nghĩa 1.26: Một kịch bản là một dãy sự kiện chuyển trạng thái liên quan (e1, e2, ... , en) trên tập trạng thái S sao cho ek = (sk, sk+1) đối với 1 k nCộng đồngĐịnh nghĩa 1.29: Một cộng đồng là một bộ (C, R), trong đó: C = {c1 , c2, ... , cn} là một tập của các cộng đồng khái niệm, mỗi một cộng đồng quy về một tập cá thể có cùng lớp hoặc kiểu; R = {r1 , r2, ... , rn} là một tập quan hệ, mỗi một quan hệ là một bộ rj = (ej, ij) trong đó ej là một tích Đề các ck1 x ck2 x ... x cknj , 1 k1 2 and 3 building 4 file 5 index 6 indexing 7 information 8 inverted 9 is 10 retrieval 11 searching 23(tiếp)2.3 CHỈ MỤC TỆP KÝ SỐ SFIDBảng 2.5 – Mã hoá chồng lên của tài liệu 2 đối với SF Thuật ngữ Ký số thuật ngữ indexing 0001 0000 1100 0100 is 0100 0100 0001 0000 building 0101 0011 0000 0000 an 0000 0100 0100 1100 index 1100 1000 0010 0000 Ký số bloc 1101 1111 1111 1110Tệp ký số SF: là một phương pháp xác suất để chỉ mục văn bản. Mỗi một tài liệu có một ký số liên kết, một xâu bit bắt nội dung tài liệu theo một nghĩa nào đó Tệp ký số bitslice: Sự truy cập SF có thể được tăng nhanh hơn bằng cách dùng kỹ thuật bitslicing, tức là kỹ thuật chuyển vị ma trận bit 24(tiếp)2.4 SO SÁNH CÁC PHƯƠNG PHÁP CHỈ MỤC Phương pháp chỉ mục tệp đảo IFID và chỉ mục tệp ký số SFID là hai phương pháp chỉ mục chính tài liệu trong thư viện số. Quy luật chỉ mục tài liệu trong DL: Ở hầu hết các ứng dụng, IF thực hiện tốt hơn SF trong phạm vi của cả hai kích thước chỉ mục và tốc độ truy vấn. IF nén là phương pháp chỉ mục hữu ích nhất một CSDL lớn các tài liệu văn bản có độ dài có thể thay đổi. 2.5 CÁC MÔ HÌNH NÉN IFID 2.5.1 Đặt vấn đề Khảo sát các mô hình và phương pháp mã hoá để nén IFID CSDL tài liệu trong thư viện số.Chìa khoá của bài toán nén là nhận xét mỗi một IL có thể được lưu trữ như một dãy số nguyên tăng dần.25(tiếp) 2.5.2 Mô hình nén toàn cụcMô hình không tham số Mô hình Bernoulli toàn cục 2.5.3 Các mô hình nén cục bộMô hình hyperbol cục bộ Mô hình Bernoulli cục bộMô hình Bernoulli lệchMô hình nén nội suy 26(tiếp)2.5.4 Hiệu năng của các mô hình nén chỉ mụcBảng 2.9 - Nén IF bằng số bit/con trỏ đối với TRECMô hình Số bit/con trỏMô hình toàn cụcĐơn nguyên 1918Nhị phân 20.00Bernoulli 12.30 6.63 6.38Mô hình cục bộHyperbol 5.89 Bernoulli 5.84Bernoulli lệch 5.44Nội suy 5.1827(tiếp)NHẬN XÉT: các mô hình cục bộ có xu hướng thực hiện nén tốt hơn mô hình toàn cục và không hiệu quả hơn về thời gian xử lý đòi hỏi trong khi giải mã, vì chúng có xu hướng cài đặt phức tạp hơn. Đối với mục đích thực hành, mô hình nén chỉ mục phù hợp nhất là phương pháp Bernoulli cục bộ, cài đặt dùng kỹ thuật mã hoá Golomb2.6 CÁC HIỆU ỨNGGộp dạng chữ Truy gốc từTừ bỏ qua 28III. TÌM KIẾM THÔNG TIN 3.1 MỞ ĐẦU Khảo sát hai kiểu truy vấn:Truy vấn Boole BQ truyền thốngTruy vấn xếp hạng RQ 3.2 TRUY VẤN BOOLE BQ3.2.1 Truy vấn BQ hộiDạng t1 AND t2 AND ... AND tr3.2.2 Truy vấn BQ không hộiDạng phổ biến khác là một phép hội của các phép tuyển:(text OR data OR information) AND(search OR seek) AND(retrieval OR indexing)29(tiếp)3.3 TRUY VẤN XẾP HẠNG RQ3.3.1 So khớp toạ độĐếm số thuật ngữ truy vấn xuất hiện trong mỗi một tài liệu 3.3.2 Tích trong độ tương tựQuá trình được hình thức hoá bằng một tích trong của một vectơ truy vấn với một tập vectơ tài liệuĐộ tương tự của truy vấn Q với tài liệu Dd được biểu diễn như sau:S(Q, Dd) = Q . Dd (3.1) trong đó: phép toán . là phép tích trongTích trong của hai n-vectơ X = và Y = được định nghĩa: (3.2) 30(tiếp)Ví dụ:S(indexing, D1) = (0, 0, 0, 1, 0, 0, 0, 0) . (1, 1, 1, 1, 0, 0, 0, 0) = 1 Cách tiếp cận so khớp toạ độ có 3 hạn chế:1. không tính đến tần suất thuật ngữ2. không tính đến sự khó tìm thuật ngữ3. các tài liệu dài với nhiều thuật ngữ Định nghĩa tần suất bên trong tài liệu của thuật ngữ fd,t : Số đếm chỉ thị số lần thuật ngữ xuất hiện trong tài liệu Ví dụ:Tính độ tương tự đối với truy vấn mẫu trở thànhS(information retrieval, D1) = (1, 1, 0, 0, 0, 0, 0, 0,) . (1, 1, 1, 1, 0, 0, 0, 0) = 2 31(tiếp) Tổng quát hơn, thuật ngữ t trong tài liệu d có thể được gán một trọng số tài liệu - thuật ngữ, ký hiệu là wd,t và trọng số khác wq,t trong vectơ truy vấn S(Q, Dd) = Q . Dd = (3.3) Độ tương tự là tích trong của hai trọng số S(Q, Dd) = (3.4) Nếu hạng được coi là một độ đo tầm quan trọng thì trọng số wt của một thuật ngữ t được tính như sau: (3.5) trong đó: ft là số tài liệu chứa thuật ngữ t 32(tiếp) Nhân tử chuẩn hoá để không kể đến phần đóng góp của các tài liệu dài. Do đó, luật tích trong đánh giá độ tương tự bằng (3.10) trong đó là độ dài của tài liệu Dd 3.3.3 Mô hình không gian vectơ Độ tương tự đối với một cặp vectơ là khoảng cách Euclide: (3.11) 33(tiếp)Hướng chỉ thị bởi 2 vectơ (3.14) Công thức có 2 hàm ý:1. Chứng minh sự chuẩn hoá: Nhân tử chuẩn hoá là độ dài Euclide của tài liệu2. Cung cấp một sự trực quan rõ ràng của luật xếp hạng 34(tiếp)Luật cosin đối với xếp hạng: (3.15) Độ tương tự: (3.18) 35(tiếp)3.4 ĐÁNH GIÁ HIỆU SUẤT TÌM KIẾM3.4.1 Độ chính xác và độ phục hồiĐộ chính xác P của một phương pháp xếp hạng đối với điểm cắt nào đó r là một phần trong số tài liệu xếp hạng cao nhất r có liên quan đến truy vấn: (3.19) Độ phục hồi R của một phương pháp tại giá trị r nào đó là tỷ lệ của tổng số tài liệu có liên quan được tìm kiếm trong r cao nhất: (3.20)363 (tiếp)3.4.2 Đường cong độ phục hồi-độ chính xác Hình 3.1 – Đường cong P-R đối với hạng của bảng 3.2 37(tiếp)3.5 ĐỘ ĐO COSIN3.5.1 Tần suất bên trong tài liệu3.5.2 Tính độ đo cosinXét lại công thức (3.18) đối với độ đo cosin:38(tiếp)Tìm kiếm r tài liệu dùng độ đo cosin,1. Đặt A { }. A là tập thanh tích luỹ.2. Đối với mỗi một thuật ngữ truy vấn t Q,(a) Truy gốc từ t.(b) Tìm kiếm từ vựng.(c) Ghi ft và địa chỉ của It , mục vào IF đối với t. (d) Đặt wt 1 + loge(N / ft).(e) Đọc mục vào IF It.(f) Đối với mỗi một cặp (d, fd,t) thuộc It , i> Nếu Ad A thì Đặt Ad 0 , Đặt A A + {Ad}. ii> Đặt Ad Ad + loge(1 + fd,t) * wt.39(tiếp)3. Đối với mỗi một Ad A, Đặt Ad Ad / Wd. Bây giờ Ad tỉ lệ với giá trị cos(Q, Dd).4. Đối với 1 i r,(a) Lựa chọn d sao cho Ad = max{A}.(b) Dò tìm địa chỉ của tài liệu d.(c) Tìm kiếm tài liệu d và trình bày với NSD.(d) Đặt A A - {Ad}. Giải thuật 3.2 Tìm kiếm r tài liệu dùng độ đo cosin. Giải thuật nêu lên 3 điểm như sau: 1. Wq bị bỏ qua vì Wq là một hằng số 2. lượng lớn bộ nhớ được sử dụng 3. chỉ r << N tài liệu có mặt 40KẾT LUẬNĐưa ra một mô hình hình thức cho thư viện số dựa vào đại số hiện đại: Một thư viện số là một bộ bốn (R, MC, DV, XH)trong đó: R là một kho; MC là một mục lục siêu dữ liệu; DV là một tập dịch vụ chứa tối thiểu các dịch vụ chỉ mục, tìm kiếm và duyệt; XH là một cộng đồng NSD thư viện số.412. Phân tích chi tiết các phương pháp chỉ mục tài liệu văn bản trong DL: phương pháp chỉ mục tệp đảo IFID và phương pháp chỉ mục ký số SFID, so sánh 2 phương pháp chỉ mục, rút ra quy luật chỉ mục tài liệu trong DL:Ở hầu hết ứng dụng, IF thực hiện tốt hơn SF trong phạm vi của cả hai kích thước chỉ mục và tốc độ truy vấn. IF nén chắc chắn là phương pháp chỉ mục hữu ích nhất một CSDL lớn các tài liệu văn bản có độ dài có thể thay đổi. Phân tích các mô hình nén toàn cục và mô hình nén cục bộ hyperbol, từ đó, đề xuất mô hình nén cục bộ Bernoulli và nén nội suy đối với IFID dựa vào các phương pháp xác suất và thống kê toán học, phương pháp mã hóa, phương pháp nén dữ liệu.KẾT LUẬN423. Phân tích chi tiết mô hình tìm kiếm thông tin kinh điển dựa vào truy vấn Boole BQ hiện đang được sử dụng trong hầu hết các hệ thư viện, chỉ ra nhược điểm của truy vấn BQ. Từ đó, luận án đề xuất một mô hình tìm kiếm văn bản dựa vào truy vấn xếp hạng RQ có đánh giá hiệu suất dựa vào độ chính xác P và độ phục hồi R.4. Phân tích chi tiết các giải thuật kinh điển: giải thuật đảo danh sách móc nối và giải thuật đảo dựa vào sắp xếp, chỉ ra hạn chế của chúng là chỉ thích hợp với các CSDL tài liệu văn bản cỡ nhỏ và vừa. Từ đó, luận án đề xuất hai giải thuật trộn nhiều đường tại chỗ dựa vào sắp xếp và giải thuật phân chia dựa vào văn bản phù hợp với CSDL tài liệu văn bản cỡ lớn trong DL. KẾT LUẬN43Nghiên cứu các phương pháp chỉ mục và tìm kiếm ảnh;Nghiên cứu các phương pháp chỉ mục và tìm kiếm video;Nghiên cứu các phương pháp chỉ mục và tìm kiếm audio;Nghiên cứu bài toán tóm tắt và trích rút tài liệu văn bản trong DL.ĐỊNH HƯỚNG NGHIÊN CỨU TƯƠNG LAI44Chân thành cám ơn !KẾT THÚC
File đính kèm:
- bai_giang_thu_vien_so_quach_tuan_ngoc.ppt