Nghiên cứu từ vựng tiếng việt với hệ thống Sketch Engine

Tóm tắt Nghiên cứu từ vựng tiếng việt với hệ thống Sketch Engine: ...iệc lựa chọn từ hạt giống và kết quả cụ thể đối với các ngôn ngữ đã được nhóm nghiên cứu giới thiệu trong [6]. Sau đây là chi tiết các bước thu thập dữ liệu cho tiếng Việt. 3.1. Lựa chọn danh sách từ hạt giống Các từ hạt giống đóng vai trò từ khóa tìm kiếm để thu về các văn bản của một ngôn ngữ.... thống trị thành phần của kho ngữ liệu, và cũng bởi vì các tập tin có độ lớn này rất nhiều trường hợp là các tệp nhật kí hay là các văn bản không liên quan khác. Các trang web được tải về bao hàm cả các thẻ HTML, các thành phần văn bản boilerplate kiểu như thanh duyệt nội dung, quảng cáo, v.v. Đ...h Engine hỗ trợ quá trình xác định các thành phần quan hệ ngữ pháp. Trong trường hợp này, các chuyên gia sẽ định nghĩa từng quan hệ ngữ pháp 7, sử dụng Sketch Engine để kiểm tra và phát triển nó, và cuối cùng đưa bộ quan hệ ngữ pháp vào hệ thống Sketch Engine. Sau đó thì người sử dụng sẽ có thể ...

pdf12 trang | Chia sẻ: havih72 | Lượt xem: 322 | Lượt tải: 0download
Nội dung tài liệu Nghiên cứu từ vựng tiếng việt với hệ thống Sketch Engine, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
 liệu Wiki, chúng tôi thực hiện tách từ các văn
bản trong kho ngữ liệu tiếng Việt. Chúng tôi sử dụng một danh sách từ tiếng Việt để nhận
dạng từ và tính tần suất. Thuật toán đơn giản chúng tôi sử dụng là duyệt theo từng câu từ
trái sang phải, chọn ranh giới từ sao cho từ thu được có nhiều âm tiết nhất có thể. Cách lựa
chọn này rõ ràng không phải bao giờ cũng chính xác, nhưng sai số là chấp nhận được cho mục
đích lập danh sách tần suất từ.
3.1.3. Lựa chọn từ hạt giống từ danh sách tần suất
Tiêu chí chọn từ hạt giống của mỗi ngôn ngữ là khác nhau, ví dụ với tiếng Hà Lan thì chỉ
các từ có độ dài ít nhất là 5 kí tự là được lựa chọn. Đối với tiếng Việt thì độ dài của từ không
phải là tiêu chí để lựa chọn, qua khảo sát các văn bản tiếng Việt cho thấy đại đa số các từ có
chứa kí tự không thuộc phạm vi ASCII. Bởi vậy ta lựa chọn tiêu chí là từ hạt giống phải có ít
nhất 1 kí tự Unicode không thuộc phạm vi ASCII, các từ khác sẽ không được xét, các chữ số
hoặc các mục không phải kí tự cũng sẽ bị loại trừ. Ở đây, ta bỏ qua 1000 từ có tần suất cao
nhất vì chúng thường được coi là các từ dừng (stop word) đối với các máy tìm kiếm. 5000 từ
tiếp theo trong danh sách tần suất thuộc nhóm từ có tần suất trung bình được sử dụng làm
từ hạt giống.
3.2. Thu thập dữ liệu từ Web
Việc thu thập dữ liệu từ Web được thực hiện bằng cách lặp lại nhiều nghìn lần cho đến
khi thu được kho ngữ liệu đủ lớn:
− Lựa chọn ngẫu nhiên một số từ trong số các từ hạt giống để tạo nên một truy vấn.
− Gửi truy vấn tới một máy tìm kiếm (như Google hay Yahoo).
− Tải về tất cả các tài liệu kết quả của máy tìm kiếm và lưu lại.
3.2.1. Sinh truy vấn
Các truy vấn Web được sinh ra từ tập các từ hạt giống bằng cách sử dụng thành phần
sinh truy vấn của công cụ BooTCaT [12]. Thành phần này sinh ra các truy vấn có độ dài n
bằng cách rút ngẫu nhiên n từ. Các bộ n từ không giống hệt nhau và cũng không là hoán vị
của nhau. Ta phải xác định độ dài hợp lý của truy vấn để xác suất kết quả tìm kiếm thuộc
đúng ngôn ngữ cần tìm là cao, đồng thời phải đảm bảo số lượng các URL tìm được là không
nhỏ đối với hầu hết các truy vấn. Chừng nào số lượng URL tìm được lớn hơn 10 cho hầu hết
các truy vấn (chẳng hạn 90 %) thì độ dài của truy vấn được coi là hợp lệ. Ở đây, ta định nghĩa
độ dài truy vấn tốt nhất là độ dài tối đa của một truy vấn mà trong đó số lượng kết quả được
tìm ra hầu hết là lớn hơn 10. Thuật toán sau được sử dụng để xác định độ dài tốt nhất cho
mỗi truy vấn:
1. Đặt n = 1
2. Sinh ra 100 truy vấn, mỗi truy vấn có độ dài bằng n
NGHIÊN CỨU TỪ VỰNG TIẾNG VIỆT VỚI HỆ THỐNG SKETCH ENGINE 211
3. Sắp xếp các truy vấn theo số các kết quả tìm được
4. Đếm số kết quả tìm được ở truy vấn thứ 90 (min-hits-count)
5. Nếu min-hits-count <10 thì dừng thuật toán và trả về n− 1
6. n = n+ 1; Quay lại bước 2
Độ dài truy vấn tốt nhất cho tiếng Việt khi tìm kiếm trên Yahoo được chỉ ra ở Bảng 1.
Bảng 1. Độ dài truy vấn, số trang kết quả ở truy vấn thứ 90, độ dài tốt nhất.
n = 1 2 3 4 5 Độ dài tốt nhất
1.100.000 15.400 422 39 5 4
Sau khi xác định độ dài truy vấn, sinh ra khoảng 30.000 truy vấn.
3.2.2. Thu thập địa chỉ URL (Uniform Resource Locator)
Sử dụng hàm API (Application Programming Interface) của Yahoo để thực hiện tìm kiếm
đối với 30.000 truy vấn, mỗi truy vấn thu lấy mười kết quả tìm kiếm đầu tiên. Nếu một URL
xuất hiện nhiều lần thì chỉ giữ lại duy nhất một URL. Số liệu thống kê thu thập URL và lọc
dữ liệu được trình bày ở Bảng 2.
Bảng 2. Thống kê kho dữ liệu từ Web
Số lượng các Số lượng sau Số lượng sau khi loại bỏ Dung lượng kho dữ liệu
URL thu được khi lọc phần trùng lặp gần nhau thu được trên Web
MB Từ
106.076 27.728 19.646 1200 GB 149 triệu từ
Thành phần thu thập URL của BooTCaT được mở để lưu trữ truy vấn hiện tại, kích thước
trang và kiểu MIME (Multipurpose Internet Mail Extensions) cho mỗi URL.
3.3. Lọc ngữ liệu
Khi các URL được tải về, thông tin MIME cho URL cũng như kích cỡ của trang là có sẵn,
chỉ thu lấy các trang có kiểu MIME là text hoặc HTML và có dung lượng lớn hơn 5 KB (để
xác suất các tệp này chứa văn bản liên quan là lớn hơn). Các tệp có dung lượng lớn hơn 2 MB
cũng được loại bỏ để tránh bất kì tệp thuộc miền đặc biệt nào thống trị thành phần của kho
ngữ liệu, và cũng bởi vì các tập tin có độ lớn này rất nhiều trường hợp là các tệp nhật kí hay
là các văn bản không liên quan khác.
Các trang web được tải về bao hàm cả các thẻ HTML, các thành phần văn bản boilerplate
kiểu như thanh duyệt nội dung, quảng cáo, v.v. Để loại bỏ các nội dung như vậy và chỉ giữ
lại phần văn bản liên quan, ta sử dụng thuật toán BTE (Body Text Extraction) [2]. BTE bắt
212 PHAN THỊ HÀ, NGUYỄN THỊ MINH HUYỀN, LÊ HỒNG PHƯƠNG, ADAM KILGARRIFF, SIVA REDDY
nguồn từ quan sát là các trang Web thường có phần đầu và phần cuối chứa nhiều boilerplate
và thẻ HTML, còn phần thân văn bản ở giữa có chứa ít thẻ chính là phần tài liệu ta quan
tâm. Thuật toán BTE tính toán tỉ lệ phần văn bản để đánh dấu cho các phần khác nhau của
trang, chia trang thành ba phần trên cơ sở tỉ lệ này và chỉ giữ lại một phần giữa. BTE đã
được thực hiện trên tất cả các trang tải xuống để thu được các trang văn bản thô.
Những trang văn bản thô này lại tiếp tục được kiểm tra tính kết nối văn bản - văn bản
kết nối trong các câu phải chứa một tỉ lệ các từ chức năng cao [10]. Nếu một trang không đáp
ứng tiêu chí này thì sẽ bị loại. Việc kiểm tra thực hiện như sau. Ta giả định 500 từ đầu tiên
trong danh sách tần suất từ (có được nhờ kho ngữ liệu Wiki) chứa hầu hết các từ chức năng.
Để thiết lập một ngưỡng cho tỉ lệ các từ chức năng trong văn bản kết nối, chúng tôi sắp xếp
tất cả các tệp tin Wiki theo tỉ lệ các từ thuộc 500 từ đầu tiên này trong mỗi tệp. Ta thấy
rằng hầu hết các tệp Wiki ở phía cuối danh sách đã được sắp xếp này (sau khoảng 75-80%)
không chứa văn bản kết nối. Đây hoặc là do công cụ Wikipedia2Text làm sạch không tốt hoặc
vì tệp thực sự không có kết nối văn bản. Tệp tin Wiki ở vị trí thứ 70% của danh sách đã sắp
xếp được sử dụng để thiết lập ngưỡng: Nếu danh sách 500 từ đầu chiếm 65% của tất cả các
từ trong tệp thứ 70% thì ngưỡng của ngôn ngữ được đặt bằng 65%. Khi đó bất kỳ trang nào
có ít hơn 65% số từ thuộc 500 từ đầu tiên trong danh sách tần suất từ sẽ bị loại bỏ.
3.4. Phát hiện tài liệu gần trùng lặp
Sử dụng mô-đun Text::DeDuper viết bằng Perl để phát hiện tài liệu gần trùng lặp nhau4.
Mô-đun này sử dụng độ đo độ giống nhau như đề xuất của Broder và cs [22] để phát hiện các
tài liệu tương tự nhau dựa vào văn bản trong đó. Đây là nhiệm vụ cần nhiều bộ nhớ: cần sinh
mô hình n-gram (n = 5) cho mỗi tài liệu và đo độ tương tự (ngưỡng = 0.2) giữa 2 tài liệu
dựa trên số n-gram giao nhau của chúng. Do kích thước bộ nhớ trong là hạn chế và chỉ có thể
chứa một số hữu hạn các tệp, nên việc phát hiện trùng lặp được thực hiện bằng cách tiếp cận
dùng cửa sổ trượt. Trước tiên, tất cả các tệp sẽ được sắp xếp theo kích cỡ và lưu tên tệp vào
một danh sách. Mỗi lần lặp, mô-đun DeDuper xác định được một số cố định (500) các tệp
không trùng nhau trong danh sách (duyệt tuần tự trên các tệp đã được sắp xếp theo kích cỡ)
mà mô hình n-gram của chúng có thể vừa với bộ nhớ. Với tất cả các tệp còn lại trong danh
sách, so sánh từng tệp với các n-gram của các tệp không trùng lặp trên để xác định chúng
có trùng lặp hay không, nếu có thì loại bỏ. Quá trình này được lặp cho tới khi tất cả các tệp
được xử lí.
3.5. Tách từ và gán nhãn từ loại
Để thu được kho ngữ liệu tiếng Việt mà trong đó các văn bản đã được tách từ và gán
nhãn từ loại, công cụ tách từ vnTokenizer [16] và công cụ gán nhãn từ loại vnTagger [15] được
sử dụng. Các công cụ này do nhóm nghiên cứu xây dựng, sử dụng dữ liệu huấn luyện là kho
treebank tiếng Việt [19].
Sau khi tách từ và gán nhãn từ loại, kho ngữ liệu được tích hợp vào hệ thống Sketch
Engine. Hình 3.1 minh họa cho việc sử dụng chức năng Concordance trong hệ thống để khai
thác kho ngữ liệu tiếng Việt phục vụ thống kê tần suất và tính trội của các từ lân cận với một
từ bất kỳ. Trong đó, tính trội được thống kê theo tỷ lệ của việc quan sát thực tế với giả thiết
4Trong tương lai, chúng tôi sẽ khai thác và sử dụng phương pháp của Pomikálek và Rychlý [9]
NGHIÊN CỨU TỪ VỰNG TIẾNG VIỆT VỚI HỆ THỐNG SKETCH ENGINE 213
đảo (của các từ lân cận cùng xuất hiện với một từ bất kỳ) thông qua công thức T-score hoặc
MI-score 5.
Hình 3.1. Danh sách tần suất và tính trội của các từ lân cận với tính từ “đẹp”
4. XÂY DỰNG TẬP QUAN HỆ NGỮ PHÁP TIẾNG VIỆT
Tiếp theo việc xây dựng kho ngữ liệu, ta xây dựng tập quan hệ ngữ pháp tiếng Việt phục
vụ cho chức năng Word Sketch của hệ thống. Ngôn ngữ truy vấn kho ngữ liệu (CQL) được sử
dụng để biểu diễn các quan hệ ngữ pháp dùng cho truy vấn kho ngữ liệu. Bởi vậy, trước hết
sẽ giới thiệu về ngôn ngữ truy vấn kho ngữ liệu, sau đó sẽ trình bày về việc xây dựng bộ quan
hệ ngữ pháp.
4.1. Ngôn ngữ truy vấn kho ngữ liệu
Ngôn ngữ truy vấn kho ngữ liệu 6 sử dụng trong Sketch Engine được phát triển bởi
nhóm từ vựng và kho ngữ liệu tại IMS, Trường Đại học Stuttgart vào những năm 1990. Mỗi
truy vấn là một biểu thức chính quy trên các biểu thức thuộc tính (ví dụ thuộc tính word
cho từ và tag cho nhãn từ loại). Một biểu thức kiểm tra trong truy vấn có khuôn dạng:
attribute_nameoperatorstring. ở đây, attribute_name là tên thuộc tính, operator là toán
tử phù hợp (=) hoặc phủ định (! =), string là một xâu cụ thể hoặc một biểu thức chính quy.
Các ví dụ sau minh họa một số truy vấn theo ngôn ngữ CQL.
1) Tìm kiếm các từ bắt đầu với confuse, với nhiều nhất 10 từ nằm giữa, sau cùng là giới
từ hoặc danh từ chỉ người:
5
6 thomas/corpora/CQL/
214 PHAN THỊ HÀ, NGUYỄN THỊ MINH HUYỀN, LÊ HỒNG PHƯƠNG, ADAM KILGARRIFF, SIVA REDDY
"confuse.*" []{0,10} [tag="IN" | tag="PP"]
2) Tìm kiếm một chuỗi gồm có một tính từ, một danh từ, một từ kết nối và một danh từ
khác:
[tag="JJ.*"][tag="N.*"]"and|or" [tag="N.*"]
4.2. Xây dựng quan hệ ngữ pháp
Để xác định quan hệ ngữ pháp giữa các từ, Sketch Engine cần biết làm thế nào tìm được
các từ kết nối với nhau theo một quan hệ ngữ pháp trong ngôn ngữ đang xét. Sketch Engine
cho phép làm việc này theo 2 cách.
1. Kho ngữ liệu đầu vào đã được phân tích cú pháp và thông tin về từ nào có quan hệ ngữ
pháp nào với các từ khác đã được nhúng trong kho ngữ liệu. Hiện tại, các kho ngữ liệu
có chú giải cú pháp phụ thuộc đã hoàn toàn được hỗ trợ. Các cây cú pháp thành phần
cần có thành phần chính của các ngữ đoạn được đánh dấu.
2. Kho ngữ liệu đầu vào chưa được phân tích cú pháp, và Sketch Engine hỗ trợ quá trình
xác định các thành phần quan hệ ngữ pháp. Trong trường hợp này, các chuyên gia sẽ
định nghĩa từng quan hệ ngữ pháp 7, sử dụng Sketch Engine để kiểm tra và phát triển
nó, và cuối cùng đưa bộ quan hệ ngữ pháp vào hệ thống Sketch Engine. Sau đó thì người
sử dụng sẽ có thể sử dụng Sketch Engine để tìm được tất cả các từ có quan hệ ngữ pháp
thông qua chức năng Word Sketch.
Đối với tiếng Việt, ta chưa có kho ngữ liệu lớn đã phân tích cú pháp nên phải sử dụng
khả năng thứ hai, tức là cần định nghĩa được tập các quan hệ ngữ pháp.
Hệ hình thức dùng cho các quan hệ ngữ pháp ở đây là dựa trên cơ sở các mẫu xâu theo
biểu thức chính quy, do đó phù hợp với các ngôn ngữ có trật tự từ ổn định, như tiếng Anh
chẳng hạn. Tiếng Việt cũng là một ngôn ngữ trong đó trật tự từ đóng vai trò quan trọng.
Ví dụ về định nghĩa một quan hệ ngữ pháp: Muốn định nghĩa quan hệ "động từ - bổ ngữ",
ta thấy rằng bổ ngữ của động từ có thể là một cụm danh từ, cụm động từ, cụm giới từ... Xét
trường hợp bổ ngữ là cụm danh từ, trong đó từ trung tâm là một danh từ và cũng là danh
từ cuối cùng của một chuỗi bao gồm các số từ (M), tính từ (A), trạng từ (R) và các danh từ
khác (N), và chú ý rằng đối với mỗi cụm danh từ bổ ngữ cho động từ (V), theo mặc định cụm
danh từ này luôn đứng trực tiếp sau động từ trong câu, nếu động từ đang xét nằm trong một
nhóm các động từ thì nó thường là động từ cuối cùng trong nhóm đó. Những thông tin này
cho ta một định nghĩa về quan hệ "động từ-bổ ngữ" là: quan hệ "một chuỗi bắt đầu với động
từ và cuối cùng là danh từ, ở giữa là một chuỗi bất kỳ của các trạng từ hoặc các định từ hoặc
các số từ hoặc các tính từ hoặc các danh từ khác". Khi đó, ta xây dựng được một biểu diễn
cho mẫu ngữ pháp trên:
1:”V” “(M|A|R|N)”* 2:”N”
Ở đây, nhãn 1: và 2: đánh dấu việc rút trích các từ của đối thứ nhất và thứ hai trong mối
quan hệ ngữ pháp, các phép toán | và phép * là phép toán trong biểu thức chính quy.
7
NGHIÊN CỨU TỪ VỰNG TIẾNG VIỆT VỚI HỆ THỐNG SKETCH ENGINE 215
Nhóm nghiên cứu đã xây dựng được tệp quan hệ ngữ pháp cơ bản tiếng Việt phiên bản 1
8 phục vụ cho hệ thống Sketch Engine. Trong đó, mỗi quan hệ ngữ pháp cơ bản sẽ bao gồm
một số mệnh đề, mỗi mệnh đề được viết trên một dòng bằng ngôn ngữ CQL thông qua biểu
thức chính quy trên thuộc tính nhãn từ loại. Các quan hệ này được xây dựng dựa vào các tài
liệu ngữ pháp tiếng Việt [20].
Dưới đây là một số ví dụ định nghĩa quan hệ ngữ pháp mà nhóm nghiên cứu đã xây dựng.
Ví dụ 1:
*DUAL
= A_modifies_N/N_modifier_A
1:"N" "P|R|A" {0,3} 2:"A"
Từ khóa DUAL để xác định là có 2 mối quan hệ được định nghĩa ở đây. A_modifies_N
- danh từ được bổ nghĩa bởi các tính từ và phần đối của nó N_modifier_A – tính từ bổ
nghĩa cho các danh từ. Chuỗi kí tự sau dấu bằng là các tên của các quan hệ, được cách nhau
bởi dấu (/). Sau cùng là biểu thức chính qui biểu diễn mối quan hệ ngữ pháp giữa tính từ và
danh từ.
Ví dụ 2:
*SYMMETRIC
= conjunction
1:"N.?[word="và"|word="hoặc"|word=","]{1} 2:"N.?"
Từ khoá SYMMETRIC để xác định mối quan hệ là đối xứng. Quan hệ được định nghĩa có
tên là conjunction, xác định mối quan hệ kết hợp giữa hai danh từ thông qua liên từ "hoặc",
"và", và ",".
Ta đã tích hợp kho ngữ liệu tiếng Việt đã tách từ và gán nhãn từ loại tự động và tập quan
hệ ngữ pháp vào hệ thống Sketch Engine. Kho ngữ liệu chứa khoảng 100 triệu từ, còn tập
quan hệ ngữ pháp gồm 11 bộ quan hệ chính. Việc tích hợp này cho phép người sử dụng có thể
thực hiện mọi chức năng của Sketch Engine phục vụ cho việc nghiên cứu từ vựng tiếng Việt.
Hình 4.1 minh họa cho chức năng Word Sketch của hệ thống Sketch Engine. Trong đó,
mỗi bảng là một danh sách thống kê tần suất và tính trội của các từ trong cùng mối quan hệ
ngữ pháp với 1 từ bất kỳ (ở đây là tính từ "đẹp").
Bảng R_Modfies_A: Danh sách các từ bổ nghĩa cho tính từ "đẹp"
Bảng N_Modifier_A: Danh sách các danh từ có tính từ "đẹp" là từ bổ nghĩa
Bảng Conjnuntion: Danh sách các tính từ kết hợp với tính từ "đẹp" thông qua các liên từ
Bảng AdjAdverb: Danh sách các từ mà "đẹp" là phó từ của các từ đó
5. KẾT LUẬN
Bài báo đã giới thiệu hệ thống Sketch Engine và nghiên cứu triển khai hệ thống này cho
tiếng Việt. Đề xuất cách thức xây dựng kho ngữ liệu và tập các quan hệ ngữ pháp cơ bản
tiếng Việt để phục vụ cho hệ thống truy vấn kho ngữ liệu trong Sketch Engine. Hiện tại việc
đánh giá chất lượng của bộ quan hệ ngữ pháp đang được thực hiện thông qua người dùng
(Trung tâm từ điển VietLex). Trong thời gian tới nhóm nghiên cứu sẽ tiếp tục đánh giá và
8http : //the.sketchengine.co.uk/auth/sketchgrammar/1353/view/
216 PHAN THỊ HÀ, NGUYỄN THỊ MINH HUYỀN, LÊ HỒNG PHƯƠNG, ADAM KILGARRIFF, SIVA REDDY
Hình 4.1. Các bảng danh sách từ có quan hệ ngữ pháp với tính từ “đẹp”.
nâng cao chất lượng của bộ quan hệ ngữ pháp. Đồng thời sẽ tiếp cận khả năng xây dựng tập
quan hệ ngữ pháp cơ bản bằng cách rút trích tự động các quan hệ ngữ pháp từ kho ngữ liệu
đã được chú giải cú pháp tiếng Việt để có độ phủ rộng hơn.
TÀI LIỆU THAM KHẢO
[1] A. Ferraresi, E. Zanchetta, M. Baroni, and S. Bernardini, Introducing and evaluating “ukwac”,
a very large web-derived corpus of english, Proceedings of the 4th Web As Corpus Workshop
at LREC, Marrakech, Morocco, 2008.
[2] A. Finn, N. Kushmerick, and B. Smyth, Fact or fiction: Content classification for digital libraries,
Proceedings of the Second DELOS Network of Excellence Workshop on Personalisation
and Recommender Systems in Digital Libraries, Dublin City University, Ireland, 2001.
[3] A. Kilgarriff, Simple maths for keywords, Proceedings of the Corpus Linguistics Conference,
University of Liverpool, UK, 2009.
[4] A. Kilgarriff and M. Rundell, Lexical profiling software and its lexicographic applications: a case
study, Proceedings of EURALEX, Copenhagen, 2002(807–818).
[5] A. Kilgarriff, P. Rychlý, P. Smrz, and D. Tugwell, The sketch engine, Proceedings of EU-
RALEX, Lorient, France ( 2004.
[6] A. Kilgarriff, S. Reddy, J. Pomikálek, and Avinesh PVS, A corpus factory for many languages,
Proceedings of the Seventh conference on International Language Resources and Eval-
uation, (LREC’10) (Valletta, Malta) (Nicoletta Calzolari(˜Conference Chair), Khalid Choukri,
Bente Maegaard, Joseph Mariani, Jan Odijk, Stelios Piperidis, Mike Rosner, and Daniel Tapias,
eds.), European Language Resources Association (ELRA), 2010.
[7] F. Keller andM. Lapata, Using the web to obtain frequencies for unseen bigrams,Computational
Linguistics, 29(2)(2003)459–484.
NGHIÊN CỨU TỪ VỰNG TIẾNG VIỆT VỚI HỆ THỐNG SKETCH ENGINE 217
[8] G. Grefenstette and J. Nioche, Estimation of english and non-english language use on the
www, Proceedings of RIAO, Recherche d’Informations Assistée par Ordinateur, Paris,
2000(237—246).
[9] J. Pomikálek and P. Rychlý, Detecting co-derivative documents in large text collections, Pro-
ceedings of the Sixth Conference on International Language Resources and Evaluation,
LREC’08, Marrakech, Morocco, 2008.
[10] M. Baroni, Distributions In Text, Corpus Linguistics: An International Handbook, Anke
Lu¨deling and Merja Kyto¨, eds., vol. 2, Mouton de Gruyter, Berlin, 2007(803–821).
[11] M. Baroni and A. Kilgarriff, Large linguistically-processed web corpora for multiple languages,
Proceedings of EACL, 2006(87–90).
[12] M. Baroni and S. Bernardini, Bootcat: Bootstrapping corpora and terms from the web, Pro-
ceedings of LREC 2004, Lisbon, Portugal, 2004(1313—1316).
[13] M. J. Sinclair, Looking up: an account of the cobuild project in lexical computiting, Collins,
1987.
[14] N. Ide, R. Reppen, and K. Suderman, The american national corpus: more than the web can
provide, Proceedings of the Third Language Resources and Evaluation Conference, Las
Palmas, 2002(839–844).
[15] P. Le Hong, A. Roussanaly, T. M. H. Nguyen, and M. Rossignol, An empirical study of maximum
entropy approach for part-of-speech tagging of vietnamese texts, Proceedings of the 37th annual
meeting of the Association for Computational Linguistics on Computational Linguistics,
TALN, Montréal, 2010.
[16] P. Le Hong, T.M.H. Nguyen, A. Roussanaly, and T.V. Ho, A hybrid approach to word segmen-
tation of vietnamese texts, Proceedings of the 2th international conference of the Language
and Automata Theory and Applications, (Tarragona, Spain), vol. 5196, Springer Berlin, 2008
(240–249).
[17] R. Jones and R. Ghani, Building a corpus for a minority language from the web, Proceedings of
the Student Workshop of the 38th Annual Meeting of the Association for Computational
Linguistics, 2000 (29-–36).
[18] S. Sharoff, Creating general-purpose corpora using automated search engine queries, WaCky!
Working papers on the Web as Corpus (Marco Baroni and Silvia Bernardini, eds.), Gedit,
Bologna, 2006.
[19] P.T. Nguyen, X.L. Vu, T.M.H. Nguyen, V.H. Nguyen, and P. Le Hong, Building a large
syntactically-annotated corpus of vietnamese, Proceedings of the 3th Linguistic Annotation
Workshop, ACL-IJCNLP, Singapore, 2009.
[20] Nguyễn Minh Thuyết and Nguyễn Văn Hiệp, Thành phần câu tiếng Việt, NXB Đại học Quốc
gia Hà Nội, 1998.
[21] K.W. Church and P. Hanks, Word association norms, mutual information and lexicograph, Pro-
ceedings of 27th Annual Meeting of ACL, Vancouver, 1989 (76–83).
[22] A.Z. Broder, S.C. Glassman, M.S. Manasse, and G. Zweig, Syntactic clustering of the web,
Computer Networks 29 (8-13)(1997) 1157–1166.
Ngày nhận bài 9 - 7 - 2011
Nhận lại sau sửa 13 - 9 - 2011

File đính kèm:

  • pdfnghien_cuu_tu_vung_tieng_viet_voi_he_thong_sketch_engine.pdf