Bài giảng Khai phá dữ liệu web - Chương 6: Tìm kiếm web - Hà Quang Thụy - Bai giang Khai pha du lieu web - Chuong 6 Tim kiem web - Ha Quang Thuy - Thư viện Ebook

Tóm tắt Bài giảng Khai phá dữ liệu web - Chương 6: Tìm kiếm web - Hà Quang Thụy: ...iên kết, meta-thông tin trong HTML, text ...38CRAWLING TRONG VirginiaHoạt động của một luồngNhận một URL mới từ bufferNếu có, chuẩn bị tải file HTML tại server từ xangược lại, chờ một số giây: nhận tiếp URL (nếu có)Đồng bộ giữa tải và Parser: Buffer cỡ 10 URLNhận trường đầu HTML cần tải từ server từ...ocInfo độ dài biến thiên chứa URL+title (khi TL đã clawled)tới URLlist chứa URL (chưa clawled).file chuyển URLDocIDdanh sách (checksum URL, DocID tương ứng) xếp theo checksum URL. Kỹ thuật URLserver tìm DocID theo URLTính URLchecksum,Tìm kiếm nhị phân file chuyển theo URLchecksumCho phép tìm kiếm t...h bày tại ĐHCN, ĐHQGHN ngày 08/7/2008 TÌM KIẾM THỰC THỂ - ENTITY/OBJECT SEARCH ENGINE76PGS. Kevin C. Chang: Bài trình bày tại ĐHCN, ĐHQGHN ngày 08/7/2008 TÌM KIẾM THỰC THỂ - ENTITY/OBJECT SEARCH ENGINE77PGS. Kevin C. Chang: Bài trình bày tại ĐHCN, ĐHQGHN ngày 08/7/2008 TÌM KIẾM THỰC THỂ - ENTITY/OBJ...

110 trang | Chia sẻ: havih72 | Lượt xem: 663 | Lượt tải: 0Free

Nội dung tài liệu Bài giảng Khai phá dữ liệu web - Chương 6: Tìm kiếm web - Hà Quang Thụy, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

ốn “tính thường xuyên”:	+ Mục tiêu:	(1) Tối ưu số lượng lần crawling mỗi trang,	(2) Tối ưu hĩa thời điểm crawling mỗi trang.	+ Nội dung:	(1) Xác định metric tối ưu thích hợp hơn: dựa trên mức độ “khĩ xử” ? mà khơng theo “tình trạng cũ”46CRAWLING: CHIẾN LƯỢC TỐI ƯU	(2) Khung cảnh hợp nhất (xử lý điểm bất động) trên cơ sở kiểu phân bố phổ biến cập nhật trang web:	- Possion, Pareto, Weibull,	- Quasi-deterministic	(3) Thuật tốn hiện đại nhất (state-of-the-art) để tìm số tối ưu dị tìm:	- chung và riêng: các ràng buộc đời sống thực,	- hiệu quả tính tốn đặc biệt: lượng tính đồ sộ 	(4) Thuật tốn tìm ra các thời điểm dị tìm lý tưởng47CRAWLING: CHIẾN LƯỢC TỐI ƯU Thành phần 2: Giải bài tốn “Lập lịch crawling”:	+ Mục tiêu: Tạo lịch crawling thực hiện được tối ưu dựa trên các thời điểm crawling lý tưởng hĩa,	+ Nội dung: - Giải pháp vấn đề chuyển tải chính xác,	- Các ràng buộc cuộc sống thực	+ Thử nghiệm: Phân tích mẫu cập nhất từ một số website mà IBM cĩ:-Grant Slam Tennis: Úc+Pháp+Mỹ mở rộng, Wimbledon- Golf: Các cup Master, Ryder,- Olympic: Đơng Nagano-1998, Hè Sydney-2000- Awards: Tonys, Grammys	+ Kết quả: phân bố thời gian liên cập nhật phủ miền rộng theo ứng xử48MỘT SỐ VẤN ĐỀ LIÊN QUAN VỚI CRAWLERCách chọn tải trang webKhơng thể tải mọi trang webKhơng gian web quá lớnTập tải về cĩ "giá trị" nhấtTập khởi độngNguồn để tải tập trang web: "nhân" crawlerĐược cơng bốThứ tự trong frontierChọn trang "quan trọng" ?Hạng ?Cách làm tươi trang webThứ tự làm tươiLàm tươi theo định kỳTrang biến đổi nhiều làm tươi nhanh hơnTính tươi của trang webChữ ký nội dung trang (Vinahoo: Thuật tốn MD5)So sánh hai chữ ký49MỘT SỐ VẤN ĐỀ LIÊN QUAN VỚI CRAWLERTối thiểu hố việc tải nạp các site đã thămGhi nhận các site đã thămSo sánh: tương tự như URL, sử dụng thuật tốn MD5Song song hĩa quá trình dị tìm chạy trên nhiều máysong song thực hiệnkhơng tải bội trang web50CRAWLER ĐA LUỒNG51CRAWLER SONG SONG52ĐÁNH CHỈ SỐ VÀ LƯU TRỮ TRONG GOOGLE:BIGFILESNguyên tắc“tối ưu”tập dữ liệu lớn được dị tìmindex và tìm kiếm khơng tốn kémMột số căn cứ phù hợp di chuyển đĩa cấu trúc dữ liệu thích hợpBigfilesHệ thống file đa thành phầnHệ thống file ảoGĩi Bigfilesđịnh vị trong h/thống file đa t/phần được tự độngđảm nhận định vị/giải định vị đặc tả filehỗ trợ nén nội dung file53KHO LƯU TRỮ TÀI LIỆU TRONG GOOGLEKho lưu trữLưu mọi trang webkế tiếp nhauNén chuẩn zlibdung hịa tốc độ nén  tỷ lệ nénnén 3:1 (so sánh với bzip 4:1 song tốc độ nén chậm)Với chỉ 1 cấu trúcđảm bảo nhất quándễ phát triển  xây dựng CTDL khác chỉ từ 1 kho và 1 file hiện lỗi clawerSync: tổng kiểm tra ?Từng gĩi nén (compressed packet)Sync length compressed packetDocID ecode urllen pagelen url pageRepository: 50,5 GB-147,8 GB uncompressedSync length compressed packet54ĐÁNH CHỈ SỐ TÀI LIỆUDocument indexgiữ thơng tin về từng document (TL)cố định mode ISAM theo DocIDbản ghitrạng thái hiện thời (clawled|chưa clawled)con trỏ 1 (tới kho)checksum,các thống kêcon trỏ 2*: tới file DocInfo độ dài biến thiên chứa URL+title (khi TL đã clawled)tới URLlist chứa URL (chưa clawled).file chuyển URLDocIDdanh sách (checksum URL, DocID tương ứng) xếp theo checksum URL.	Kỹ thuật URLserver tìm DocID theo URLTính URLchecksum,Tìm kiếm nhị phân file chuyển theo URLchecksumCho phép tìm kiếm theo mode lơ. Mode lơ cần cho dữ liệu lớn (ví dụ, 332 triệu links) ? câu hỏi hàng ngày nhiều ?55TỪ ĐIỂN VÀ DANH SÁCH HIT(4) Từ điểnMột số dạng biểu diễnđặt BNT khi thực hiệnGồm 2 phầndãy từ cách nhau 1 dấu cách (ngồi ra cĩ các thơng số khác)bảng băm các con trỏ,	(1998): máy cĩ BNT 256MB, 14 triệu từ,(5) Các danh sách hit	- một danh sách  dãy xuất hiện một từ ở một tài liệuvị trí, font, hoa-thường,	- biểu diễn cả index - index ngược trình bày hiệu quả nhất cĩ thể được chọn lựa mã hĩađơn giản|cơ đọngĐơn giản: bộ nhớ ít hơnCơ đọng: chế biến bit ít hơn Huffman |Huffman ?  mã hĩa cơ đọng tối ưu (compact).56CẤU TRÚC HIT TRONG GOOGLEhit (như hình vẽ)2 byte (16 bit)hai kiểu: plain và fancyplain: word trong nội dung; hoa/thường 1 bit; font 111 plain, =111 fancy; vị trí > 4096 đặt =4096 fancy: hai loại thường/anchorAnchor: 4 bit vị trí trong anchor+4 bit hash cho DocID chứa anchorNghiên cứu giải pháp anchor+hash dài hơnTiết kiệm bộ nhớhit kết hợp WordID ở index thuận| DocID ở index ngược thành 4 byteĐộ dài thực lớn hơnmã escape được dùng (00000-00000000 ?) và hai byte tiếp chứa độ dài thựcThoả giới hạn thiết kế Google năm 1998224 (14 triệu) Word và 227 (100 triệu) TL57CHỈ SỐ THUẬN: TÌM THEO TÀI LIỆUIndex thuậnPhân hoạch 64 barrel thuậnMột barrel  một vùng chỉ số WordIDNếu Doc cĩ Word ở barrel ( vùng chỉ số)ghi DocID vào barrel, tiếp là dãy WordID kèm danh sách hit tương ứng wordsthêm chút ít bộ nhớ (một docID ghi trên nhiều barrel) song ích lợi về độ phức tạp thời gianmã hĩa khi index cuối cùng.* ghi gia số WordID (+WordID đầu)tiết kiệm kh/gian24 bit cho WordID trong barrel chưa sắpdành 8 bit ghi độ dài danh sách hit.58CHỈ SỐ NGƯỢC: TÌM THEO TỪ59CHỈ SỐ NGƯỢC: TÌM THEO TỪ Index ngược- Từ vựng: 293 MB- Barrels ngược 41 GB- chứa barrel như thuận- sắp theo wordID. -  wordID: từ điển trỏ barrel chứa word  tới doclist các DocID + dãy hit tương ứng.* Quan trọng: Thứ tự DocID xuất hiện tại doclist ra sao ?Đơn giản: Sắp theo DocID trộn nhanh các doclist theo câu hỏi word đa thành phần ,Xếp theo “hạng” xuất hiện các word trong Doc: trả lời 1 word tầm thường, word đa thành phần nhanh;Khĩ khăn: (i) trộn, (ii) tính lại hạng khi dựng lại index giải pháp dung hịa (1)+(2) cĩ hai tập index ngược:hit tiêu đề + hit anchor,mọi hit list  kiểm tra tập hit tiêu đề + anchor. Nếu khơng đủ phù hợp  kiểm tra tập thứ hai.60TRUNG TÂM DỮ LIỆU GOOGLE NGÀY NAYChỉ số quy mơ WWW: phải sử dụng một cụm máy tính phân tánMáy tính đơn dễ bị lỗi, dễ thất thường: chậm/thất bạiTrung tâm dữ liệu Google:Chủ yếu chứa các máy tính dịch vụ/hàng hĩaĐược phân tán trên tồn thế giớiƯớc lượngTổng cộng khống 1 triệu máy phục vụ, khoảng 3 triệu bộ xử lý lõi (Gartner, 2007)Khởi động 100.000 máy phục vụ mỗi quý Sẽ tiến tới khoảng 10% cơng suất tính tốn trên thế giớiChi phí trung tâm dữ liệu khoảng 200-250 triệu US$ mỗi nămVấn đề khai thác xâu máy tính đồ sộ61KHAI THÁC XÂU MÁY TÍNHĐiều khiển chỉ mục phân tánDuy trì một máy quản lý (“tập trung hĩa”) chỉ đạo cơng việc chỉ mục – giải pháp “tin cậy” Phân chia cơng việc chỉ mục thành các tập việc song songMáy quản lý gán mỗi việc cho một máy nhàn rỗi từ cụm.Việc “song song”Hai kiểu việc song song và triển khai hai kiểu máy thi hành tương ứng kiểu việc song songPhân tích cú phápChỉ mục ngượcTách bộ tài liệu đầu vào thành các đoạn theo hai loại trênMỗi đoạn là một tập con tài liệu62XỬ LÝ CÁC TẬP CON TÀI LIỆUPhân tích cú phápMáy quản lý gán mỗi đoạn tới một máy tính phân tích cú pháp rỗi Bộ PTCP đọc từng tài liệu và cho ra các cặp (từ, tài liệu)Bộ PTCP viết các cặp vào j phân hoạch theo miền chữ cái đầu tiên của từ, chẳng hạn với j=3: a-f, g-p, q-z.Chỉ mục ngượcMỗi bộ chỉ mục ngược thu thập mọi thiết đặt = cặp (từ, tài liệu) cho một phân vùng từ khĩaSắp xếp và ghi vào danh sách các thiết đặt63TÍNH HẠNGHạng của trang webThuộc tính “quan hệ” giữa các trang webTheo nghĩa độ quan trọngSo sánh lẫn nhauSử dụngHiển thị khi trả lời người dùngKhai thác, phát hiện các thuộc tính khácPhương phápTính theo mơ hình đồ thị webCâu hỏi người dùngLà bài tốn phổ dụngMạng phức hợp, mạng xã hội, mạng gene, đồ thị web64ĐỒ THỊ WEBChuyển giao hạng giữa các trang qua liên kết65TÍNH HẠNG ĐƠN GIẢNCơng thức PageRank	↔N(i) : Số liên kết ra của trang iB(i) : Tập các trang cĩ liên kết tới trang iri = r (i) : Hạng của trang ir là giá trị riêng của ATLặp để tính r. Vấn đề hội tụ ?66HẠNG TRANG ĐƠN GIẢN: TỒN TẠIMột số lưu ý Chu trình: cĩ thể lặp một vịng mãi mãiTrang khơng cĩ liên kết nào: hạng =0.Trang nào cũng cĩ ý nghĩa vì vậy hạng cần lớn hơn 0Cần cơng thức phức tạp hơn67HẠNG TRANG ĐƠN GIẢN: CẢI TIẾNMa trận cải tiến được xây dựng từ ma trận đơn giản theo các bước:Thêm 1/N vào hàng gồm tồn 0Nhân ma trận với dCộng thêm giá trị (1-d)/N	tồn tại vector PR riêng  với 	 Lặp với vịng lặp 2068CƠNG THỨC CẢI TIẾNCơng thức cải tiến Độ hãm d (0.80-0.85) Ma trận khơng suy biến  Tồn tại vector riêng ổn địnhCơ sở tốn họcPaolo Boldi, Massimo Santini and Sebastiano Vigna (2005). PageRank as a Function of the Damping Factor. Proceedings of the 14th international conference on World Wide Web, 557– 566, Chiba, Japan, 2005, ACM Press69Nội dungGiá trị hạng PageRankĐược tính một lầnNgoại tuyến cho tồn khơng gian Web, độc lập với câu truy vấnWeb graphPageRank()Query ProcessorQuery-timepage  rankOfflinequeryHẠNG TRANG ĐƠN GIẢN VỚI CÂU TRUY VẤN70 Nội dung- Tính hạng dựa trên liên kết (Link-base score)- Quan tâm đến truy vấn (Topic-sensitive)  lớp tài liệu  lớp câu truy vấn- Tối thiểu truy vấn thời gian (Minimum query time processing)WebTSPageRank()Query ProcessorQuery-time(page,topic) ranktopicClassifierYahoo! or ODPOfflinequerycontextPAGERANK HƯỚNG CHỦ ĐỀ (Topic-Sensitive PageRank) 71HẠNG TRANG: MỘT SỐ NGHIÊN CỨU GẦN ĐÂYBài tốn thời sự trong máy tìm kiếmCác nhĩm nghiên cứu Amy N. Langville, Carl D. MeyerPaolo Boldi, Sebastiano Vigna Các hội thảo quốc tếHội thảo WWW05Fourteenth International World Wide Web Conference, Chiba, Japan, 2005Khử spamTự nâng hạng trangMột số phương pháp: nội dung (nội dung: (1) che phần nâng hạng, (2) giả dạng; liên kết: tăng liên kết tới) Áp dụng lĩnh vực khácMạng phức hợp: mạng xã hội, mạng geneVai trị các thực thế trong mạngTham khảo Nguyễn Thu Trang, Nguyễn Hồi Nam, Đặng Thanh Hải72Thuật tốn PageRankMột số bài báo Fan Chung Graham (Internet Mathematics) 73PGS. Kevin C. Chang: Bài trình bày tại ĐHCN, ĐHQGHN ngày 08/7/2008 TÌM KIẾM THỰC THỂ - ENTITY/OBJECT SEARCH ENGINE74PGS. Kevin C. Chang: Bài trình bày tại ĐHCN, ĐHQGHN ngày 08/7/2008 TÌM KIẾM THỰC THỂ - ENTITY/OBJECT SEARCH ENGINE75PGS. Kevin C. Chang: Bài trình bày tại ĐHCN, ĐHQGHN ngày 08/7/2008 TÌM KIẾM THỰC THỂ - ENTITY/OBJECT SEARCH ENGINE76PGS. Kevin C. Chang: Bài trình bày tại ĐHCN, ĐHQGHN ngày 08/7/2008 TÌM KIẾM THỰC THỂ - ENTITY/OBJECT SEARCH ENGINE77PGS. Kevin C. Chang: Bài trình bày tại ĐHCN, ĐHQGHN ngày 08/7/2008 TÌM KIẾM THỰC THỂ - ENTITY/OBJECT SEARCH ENGINE78PGS. Kevin C. Chang: Bài trình bày tại ĐHCN, ĐHQGHN ngày 08/7/2008 TÌM KIẾM THỰC THỂ - ENTITY/OBJECT SEARCH ENGINE79PGS. Kevin C. Chang: Bài trình bày tại ĐHCN, ĐHQGHN ngày 08/7/2008 TÌM KIẾM THỰC THỂ - ENTITY/OBJECT SEARCH ENGINE80PGS. Kevin C. Chang: Bài trình bày tại ĐHCN, ĐHQGHN ngày 08/7/2008 TÌM KIẾM THỰC THỂ - ENTITY/OBJECT SEARCH ENGINE81PGS. Kevin C. Chang: Bài trình bày tại ĐHCN, ĐHQGHN ngày 08/7/2008 TÌM KIẾM THỰC THỂ - ENTITY/OBJECT SEARCH ENGINE82PGS. Kevin C. Chang: Bài trình bày tại ĐHCN, ĐHQGHN ngày 08/7/2008 TÌM KIẾM THỰC THỂ - ENTITY/OBJECT SEARCH ENGINE83PGS. Kevin C. Chang: Bài trình bày tại ĐHCN, ĐHQGHN ngày 08/7/2008 TÌM KIẾM THỰC THỂ - ENTITY/OBJECT SEARCH ENGINE84PGS. Kevin C. Chang: Bài trình bày tại ĐHCN, ĐHQGHN ngày 08/7/2008 TÌM KIẾM THỰC THỂ - ENTITY/OBJECT SEARCH ENGINE85PGS. Kevin C. Chang: Bài trình bày tại ĐHCN, ĐHQGHN ngày 08/7/2008 TÌM KIẾM THỰC THỂ - ENTITY/OBJECT SEARCH ENGINE86TÌM KIẾM THỰC THỂ - ENTITY/OBJECT SEARCH ENGINEPGS. Kevin C. Chang: Bài trình bày tại ĐHCN, ĐHQGHN ngày 08/7/2008 87TÌM KIẾM THỰC THỂ - ENTITY/OBJECT SEARCH ENGINE Kết quả trích chọn thơng tin: chương 9.PGS. Kevin C. Chang: Bài trình bày tại ĐHCN, ĐHQGHN ngày 08/7/2008 88Hệ thống tìm kiếm thực thể ngườiDãy hội thảo WePS Web People Search 23-24, 2007Prague, Czech Republicin association with Semeval/ACL 2007WePS-2April 21stMadrid, SpainCo-located with the WWW2009 conferenceWePS-323 September 2010CLEF 2010 Lab in Padova (Italy)89WePS 123 - Web People Search90WePS 123 - Web People SearchWePS-1Bài tốn: Person names disambiguation in a Web searching29 nhĩm tham gia và 15 bài báo cơng bốWePS-2Bài tốnPerson names disambiguation in a Web searchingPerson Attribute Extraction21 bài báo cơng bốWePS-3Bài tốn:Kết hợp hai bài tốn từ WePS-2: ? Tiểu sử ngườiMơ hồ tên “tổ chức” và quản lý danh tiếng “tổ chức”2 báo cáo mời và 13 báo cáo khác91WePS-1: Bài báo mơ tả bài tốnTask descriptionBộ dữ liệu dùng thử: phiên bản chuyển thể WePS-06Bộ dữ liệu học, kiểm tra: cùng cách lấy từ 3 nguồn (điều tra dân số Mỹ, Wikipedia tiếng Anh, và Ban chương trình hội nghị ECDL06)Tiến hành chú giảiSố nhĩm tham gia và báo cáo29 nhĩm16 báo cáo đúng hạn92[AGS07] Javier Artiles, Julio Gonzalo and Satoshi Sekine (2007). The SemEval-2007 WePS Evaluation: Establishing a benchmark for the Web People Search Task., WePS-1WePS-1: Bài báo mơ tả bài tốn [AGS07]Task descriptionBộ dữ liệu dùng thử: phiên bản chuyển thể 93WePS-1: Bài báo mơ tả bài tốn [AGS07]Bộ dữ liệu học: số thực thể, số tài liệu, độ thải hồi(?)94WePS-1: Bài báo mơ tả bài tốn [AGS07]Bộ dữ liệu kiểm tra95WePS-1: Bài báo mơ tả bài tốn [AGS07]Các độ đo đánh giá Độ chính xác: cĩ từ tìm kiếm thơng tin C: tập cụm được đánh giá; L: tập các lớp (chú giải bằng tay), n: số phần tử được phân cụm  = 0.2 : IP trọng số cao hơn P (độ thuần khiết)96WePS-1: Bài báo mơ tả bài tốn [AGS07]Kết quả đánh giá các độiLưu ý ONE-IN-ONE: Các thực thể mà chỉ một tài liệu đại diện97WePS-1: 13 bài báo mơ tả hệ thống98PSNUS: Web People Name Disambiguation by Simple Clustering with Rich Features. Ergin Elmacioglu, Yee Fan Tan, Su Yan, Min-Yen Kan and Dongwon Lee; The Pennsylvania State University, (Mỹ) + NUSAUG: A combined classification and clustering approach for web people disambiguation.Els Lefever, Véronique Hoste and Timur Fayruzov; Ghent University Association; Mỹ ?CU-COMSEM: Exploring Rich Features for Unsupervised Web Personal Name Disambiguation.Ying Chen and James H. Martin; University of Colorado at Boulder, BỉDFKI2: An Information Extraction Based Approach to People Disambiguation.Andrea Heyl and Günter Neumann; Artificial Intelligence – DFKI, ĐứcFICO: Web Person Disambiguation Via Weighted Similarity of Entity Contexts.Paul Kalmar and Matthias Blume, Fair Isaac Corporation, MỹIRST-BP: Web People Search Using Name Entities.Octavian Popescu and Bernardo Magnini; FBK-irst, Trento (Italy)JHU1 : An Unsupervised Approach to Person Name Disambiguation using Web Snippets.Delip Rao, Nikesh Garera and David Yarowsky; Johns Hopkins University (Mỹ?)WePS-1: 13 bài báo mơ tả hệ thống99SHEF: Semantic Tagging and Summarization Techniques Applied to Cross-document Coreference.Horacio Saggion; University of Sheffield, AnhTITPI: Web People Search Task Using Semi-Supervised Clustering Approach.Kazunari Sugiyama and Manabu Okumura; Tokyo Institute of TechnologyUA-ZSA: Web Page Clustering on the basis of Name Disambiguation. Zornitsa Kozareva, Sonia Vazquez and Andres Montoyo, University of Alicante, Tây Ban NhaUC3M_13: Disambiguation of Person Names Based on the Composition of Simple Bags of Typed Terms.David del Valle-Agudo, César de Pablo-Sánchez and María Teresa Vicente-Díez; Universidad Carlos III de Madrid, Tấy Ban NhaUNN-WePS: Web Person Search using co-Present Names and Lexical Chains.Jeremy Ellman and Gary Emery; Northumbria University, AnhUVA: Language Modeling Techniques for Web People Search. Krisztian Balog, Leif Azzopardi and Maarten de Rijke; University of Amsterdam, Hà LanWIT: Web People Search Disambiguation using Random Walks.José Iria, Lei Xia and Ziqi Zhang; The University of Sheffield, Anh WePS-2: mơ tả bài tốn và độ đánh giáMơ tả bài tốn (2 bài báo)WePS 2 Evaluation Campaign: Overview of the Web People Search Clustering Task, Javier Artiles, Julio Gonzalo and Satoshi Sekine WePS 2 Evaluation Campaign: Overview of the Web People Search Attribute Extraction Task, Satoshi Sekine and Javier Artiles. Độ đo đánh giá (1 bài báo)Combining Evaluation Metrics with a Unanimous Improvement Ratio and its Application to the Web People Search Clustering Task. Enrique Ámigo, Javier Artiles and Julio Gonzalo.100WePS-2: [UVA] The University of Amsterdam at WePS2. Krisztian Balog, Jiyin He, Katja Hofmann, Valentin Jijkoun, Christof Monz, Manos Tsagkias, Wouter Weerkamp and Maarten de Rijke. [UPM] Learning by doing: A baseline approach to the clustering of web people search results. José Carlos González, Pablo Maté, Laura Vadillo, Rocío Sotomayor and Álvaro Carrera. [PolyUHK] PolyUHK: A Robust Information Extraction System for Web Personal Names. Ying Chen, Sophia Yat Mei Lee and Chu-Ren Huang, The Hong Kong Polytechnic University[UMD] Determine the Entity Number in Hierarchical Clustering for Web Personal Name Disambiguation. Jun Gong and Douglas Oard. [CASIANED] CASIANED: Web Personal Name Disambiguation Based on Professional Categorization. Xianpei Han and Jun Zhao. [CASIANED] CASIANED: People Attribute Extraction based on Information Extraction. Xianpei Han and Jun Zhao. [ITC_UT] Person Name Disambiguation on the Web by TwoStage Clustering. Masaki Ikeda, Shingo Ono, Issei Sato, Minoru Yoshida and Hiroshi Nakagawa. [FICO] Features for Web Person Disambiguation. Paul Kalmar and Dayne Freitag. [ECNU] Which Who are They? People Attribute Extraction and Disambiguation in Web Search Results., Man Lan, Yu Zhe Zhang, Yue Lu, Jian Su and Chew Lim Tan, East China Normal University101WePS-2: 102[AUG] Fuzzy Ants Clustering for Web People Search. Els Lefever, Timur Fayruzov, Véronique Hoste and Martine De Cock. [UNED] Web People Search Disambiguation using Language Model Techniques. Juan Martinez-Romo and Lourdes Araujo. [UCI] Exploiting Web querying for Web People Search in WePS2. Rabia Nuray-Turan, Zhaoqi Chen, Dmitri Kalashnikov and Sharad Mehrotra. [UC3M] UC3M at WePS2-AE: Acquiring Patterns for People Attribute Extraction from Webpages. César de Pablo Sánchez and Paloma Martínez Fernández. [BUAP] An Unsupervised Approach based on Fingerprinting to the Web People Search task. David Pinto, Mireya Tovar, Darnes Vilariđo, Héctor Díaz and Héctor Jiménez-Salazar. [XMedia] XMedia: Web People Search by Clustering with Machinely Learned Similarity Measures. Lorenza Romano, Krisztian Buza, Claudio Giuliano and Lars Schmidt-Thieme. [GUELP] Web People Search Based on Locality and Relative Similarity Measures. Fei Song, Robin Cohen and Song Lin. [PRIYAVEN] Clustering Web People Search Results Using Fuzzy Ant-Based Clustering. Priya Venkateshan. [MIVTU] A Two-Step Approach to Extracting Attributes for People on the Web. Keigo Watanabe, Danushka Bollegala, Yutaka Matsuo and Mitsuru Ishizuka. WePS-2: Bài về độ đo 103Thường kết hợp các chỉ số C. Van Rijsbergen (1974) như cơng thức trên (với R: Độ hồi tưởng và P: độ chính xác).Mục đích bài báo: Nghiên cứu tác động ảnh hưởng của các trọng số	Đề xuất độ đo nâng cao chất lượng đánh giá khơng phụ 	thuộc vào trọng số.Cải thiện theo nhất trí: Unanimous ImprovementsHệ số cải thiện theo nhất trí: Unanimous Improvements Ratio Mơ hình Meta-Search [Glo01]104Eric J. Glover (2001). Using Extra-Topical User Preferences To Improve Web-Based Metasearch. PhD Thesis, The University of Michigan.Mơ hình Meta-Search [ME08] 105[ME08] Manoj M, Elizabeth Jacob (2008). A Personalized Search Engine Based on MS engine: an overview, J. of Scientific & Industries Research, 67: 379-386.MÁY TÌM KIẾM Ơ VIỆT NAMMột số máy tìm kiếm TV trước đây:PanVietnam của Netnam: giải 2002, cầm chừngVinaSEEK của Tinh Vân: máy (200 tr), chạy như hiện nayHoa tiêu của FPT (Vương Quang Khải): nổi, cáo lui 8/2002Một số máy tìm kiếm hiện nayXalo.vn ( 	C/ty Tinh VânSocbay ( 	C/ty NAISCORPBaamboo ( C/ty CP Truyền thơng Việt NamMột số nhận định trên mạngSearch của Việt Nam: Cảnh chợ chiều!Bùi Dũng: Google đã "nuốt chửng" cơng cụ tìm kiếm Việt Nam? (ẫn duy trì cơng cụ tìm kiếm của Việt Nam!Lê Ngọc Quang (IDG Ventures Vietnam)gần như bỏ khơng ; khơng tạo doanh thu ;rất ít người dùng -> lãng phí “Cơng cụ tìm kiếm Việt Nam: Một cổ hai trịng”  CÁC MÁY TÌM KIẾMXuất xứVietseek do Bùi Quang Minh, 2002Trên cơ sở ASPseekChạy thử trên cổng VDC với 2 triệu trang webModule tiếng ViệtDự án Vinahoo (VNSEN)Nhĩm nghiên cứu “Khai phá dữ liệu”Hoạt động và dự kiếnMáy tìm kiếm thực thểLiên kết với nhĩm UIUC (PGS. Chang C. Kevin)Tìm kiếm người, đa phương tiện.107COLTECH-DM:MÁY TÌM KIẾM VIETSEEK-2002108COLTECH-DM: MÁY TÌM KIẾM THỰC THỂ109COLTECH-DM: TÌM KIẾM GIÁ CẢ SẢN PHẨM110

File đính kèm:

bai_giang_khai_pha_du_lieu_web_chuong_6_tim_kiem_web_ha_quan.ppt