Phân tích cụm danh từ tiếng Việt sử dụng văn phạm hợp nhất

Tóm tắt Phân tích cụm danh từ tiếng Việt sử dụng văn phạm hợp nhất: ... Đỉnh chỉ nhận: là đỉnh không có cung đi ra. Cấu tử N1: (CAT N ROOT fish AGR {3s 3p}) có biểu diễn DAG như trong hình 1. N1CAT ROOTN {3s,3p} AGR fish Hình 1. Biểu diễn DAG của cấu tử N1 (CAT N ROOT fish AGR {3s 3p}) 2. Giải thuật hợp nhất đồ thị Input: Hai DAG có gốc là Ni... vị trí của phó từ. 2. Từ loại trong tiếng Việt Các tiêu chí phân loại: dựa vào ý nghĩa phạm trù gồm nghĩa từ vựng, nghĩa ngữ pháp, và dựa vào khả năng kết hợp trong cụm từ và trong câu. ([3]) Từ tiếng Việt được chia làm 2 nhóm lớn là thực từ và hư từ. Thực từ: mang ý nghĩa từ vựng, có...n SIZE lớn NATURE {vật, thực vật}) NK3 (CAT nk LEX “cuốn” SHAPE vuông/mỏng SIZE bé NATURE vật) NT1 (CAT nt LEX “bóng” SHAPE tròn SIZE lớn NATURE vật) NT3 (CAT nt LEX “sách” SHAPE vuông/mỏng SIZE bé NATURE vật) NK2 (CAT nk LEX “viên” SHAPE tròn...

pdf7 trang | Chia sẻ: havih72 | Lượt xem: 301 | Lượt tải: 0download
Nội dung tài liệu Phân tích cụm danh từ tiếng Việt sử dụng văn phạm hợp nhất, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
 Phân tích cụm danh từ tiếng Việt 
sử dụng văn phạm hợp nhất 
Vietnamese Noun Phrase Parsing Using Unification Grammar 
Trần Ngọc Tuấn, Phan Thị Tươi 
Abstract: This paper presents in brief about grammar 
augmented with feature system, unification grammar and 
unification parsing algorithm, applying to Vietnamese 
natural language processing.We propose here a semantic 
approach in creating feature system for Vietnamese 
lexicon, and the unification parsing for Vietnamese noun 
phrase which heads by a noun of types.The demostration 
program is written in Java which uses library packages 
provided by SourceForge for education purposes. 
I. ĐẶT VẤN ĐỀ 
Phân tích cú pháp là một trong những công cụ cơ 
bản của xử lý ngôn ngữ tự nhiên, hầu hết các ứng 
dụng xử lý ngôn ngữ tự nhiên đều sử dụng một bộ 
phân tích cú pháp trong một giai đoạn nào đó. Trong 
các hệ thống dịch máy, đó là các giai đoạn phân tích 
câu nguồn, phát sinh câu đích ([5]). Nhiều loại văn 
phạm sử dụng cấu trúc nét để biểu diễn những tính 
chất cú pháp của các yếu tố văn phạm, trong số đó có 
Lexical Functional Grammar (LFG), Head-Driven 
Phrase Structure Grammar (HPSG), Definite Clause 
Grammar (DCG) [1]. Các loại văn phạm như thế được 
gọi chung là văn phạm gia tố có hệ thống nét. (Bên 
dưới sẽ được gọi vắn tắt là văn phạm gia tố). 
Văn phạm gia tố và các giải thuật phân tích kinh 
điển như chart parsing đã phát huy tác dụng trong xử 
lý ngôn ngữ tự nhiên cho các ngôn ngữ Ấn-Âu, điển 
hình là tiếng Anh, nhờ các đặc trưng hình vị từ vựng 
[1]. Vận dụng các nguyên tắc của văn phạm gia tố vào 
xử lý ngôn ngữ tự nhiên tiếng Việt, là ngôn ngữ có 
văn phạm không phụ thuộc hình vị từ vựng, đòi hỏi 
những vận dụng thích hợp. Ở đây chúng tôi đưa ra 
một tiếp cận xây dựng hệ thống nét dựa vào ngữ nghĩa 
từ vựng và áp dụng giải thuật hợp nhất vào phân tích 
cụm danh từ tiếng Việt. 
Chương trình thử nghiệm xây dựng bằng Java sử 
dụng gói thư viện xử lý ngôn ngữ tự nhiên do 
SourceForge [8] cung cấp cho thấy khả năng thích 
ứng các cấu trúc nét ngữ nghĩa của danh từ tiếng Việt 
trong giải thuật phân tích hợp nhất. Chúng tôi hy vọng 
có một đóng góp nhỏ trong nghiên cứu xử lý ngôn 
ngữ tự nhiên tiếng Việt nói chung và ứng dụng trong 
dịch máy Anh-Việt, Việt-Anh nói riêng. 
II. NÉT VÀ VĂN PHẠM GIA TỐ 
1. Cấu trúc nét 
Tập nét F chứa những thuộc tính có thể của các đơn 
vị văn phạm, tập trị nét VF gồm các giá trị có thể gán 
cho phần tử thuộc tập nét. Cấu tử (hay cấu trúc nét) là 
một ánh xạ: F Æ VF biểu diễn hệ thống thuộc tính và 
trị tương ứng của một đơn vị văn phạm. 
Cho 
F = {ROOT, CAT, NUMBER} 
VF = {ART, s, p, “a”, “fish”} 
Cấu tử 
 ART1: (CAT ART 
 ROOT “a” 
 NUMBER s) 
biểu diễn hệ thống thuộc tính văn phạm: mạo từ 
“a” số ít. 
Dạng rút gọn: 
 ART1: (ART ROOT a NUMBER s) 
Cấu trúc nét có thể biểu diễn dưới dạng thứ bậc 
nhiều cấp, trong đó một cấu trúc nét tự thân nó là trị, 
các số 1, 2, 3, đại diện cho các cấu tử con thứ nhất, 
 thứ hai, thứ ba, bên dưới một cấu tử cấp cao hơn. 
Luật trong văn phạm gia tố được biểu diễn dưới 
dạng cấu trúc nét có chứa biến, nhờ đó có thể áp dụng 
luật cho nhiều tình huống khác nhau. Chẳng hạn luật 
gia tố cho cụm danh từ đơn giản: 
(NP NUMBER ?n) Æ 
(ART NUMBER ?n) (N NUMBER ?n) 
2. Từ điển và văn phạm gia tố 
Từ điển cần được định nghĩa trước khi xây dựng 
văn phạm. Thay vì phải chứa tất cả các từ cần thiết, 
với phương pháp hữu hạn trạng thái và khái niệm cấu 
tử, từ điển chỉ cần chứa các mục từ là cấu tử từ vựng 
cho từ nguyên với tập nét thể hiện quy tắc hình thái 
học. 
Luật gia tố có dạng: A Æ X1 X2  Xn
trong đó: vế trái A là cấu tử cha, vế phải là các cấu 
tử con. 
Mỗi ký hiệu là một cấu tử có dạng: (Category 
{Feature Variable | Value}*) 
Xi có tất cả các trị nét đồng nhất với A gọi là cấu tử 
con đứng đầu, tập nét như thế gọi là nét đầu và được 
thể hiện bằng chữ in nghiêng. 
III. VĂN PHẠM HỢP NHẤT 
Cấu trúc nét có thể được tổng quát hóa đến mức 
không còn cần đến văn phạm. Toàn bộ văn phạm lúc 
đó như là một tập các ràng buộc giữa các cấu trúc nét. 
Một hệ thống như vậy được gọi là Văn phạm hợp nhất 
(Unification Grammar). 
1. Nét mở rộng 
Nét F1 được gọi là mở rộng (hay còn gọi là cụ thể 
hóa) nét F2 nếu mọi trị nét trong F1 đều có trong F2. 
 (CAT V 
 ROOT cry) 
là mở rộng (CAT V) 
Hai cấu trúc (CAT V 
 ROOT cry) 
và (CAT V 
 VFORM pres) 
không mở rộng lẫn nhau. 
2. Nét hợp nhất 
Hai cấu trúc nét hợp nhất nếu có một cấu trúc nét 
mở rộng cả hai. Hợp nhất tổng quát nhất là cấu trúc 
nét bé nhất mở rộng cả hai. 
Hai cấu trúc (CAT V 
 ROOT cry) 
và (CAT V 
 VFORM pres) 
có hợp nhất tổng quát nhất là: 
 (CAT V 
 ROOT cry 
 VFORM pres) 
3. Văn phạm hợp nhất 
Dạng luật gia tố: 
(S INV- VFORM ?v {pres past} AGR ?a) Æ (NP 
AGR ?a) (VP VFORM ?v {pres past} AGR ?a) 
biểu diễn dưới dạng văn phạm hợp nhất: 
X0 Æ X1 X2 CAT0=S 
 CAT1=NP 
 CAT2=VP 
 AGR0=AGR1=AGR2
 VFORM0=VFORM2 
Dạng rút gọn: 
S Æ NP VP AGR=AGR1=AGR2
 VFORM=VFORM2
IV. GIẢI THUẬT HỢP NHẤT 
1. Biểu diễn đồ thị có hướng, không chu trình 
DAG của cấu trúc nét 
Đỉnh: có nhãn là cấu tử, trị; Cung: có nhãn là nét. 
Đỉnh chỉ phát: là đỉnh không có cung đến, mỗi 
DAG có duy nhất 1 đỉnh chỉ phát gọi là đỉnh gốc. 
Đỉnh chỉ nhận: là đỉnh không có cung đi ra. Cấu tử 
 N1: (CAT N 
 ROOT fish 
 AGR {3s 3p}) 
có biểu diễn DAG như trong hình 1. 
N1CAT
ROOTN {3s,3p} 
AGR 
fish 
Hình 1. Biểu diễn DAG của cấu tử N1 
(CAT N ROOT fish AGR {3s 3p}) 
2. Giải thuật hợp nhất đồ thị 
Input: Hai DAG có gốc là Ni và Nj
Output: DAG hợp nhất 
Method: 
1. Nếu Ni =Nj thì kết thúc với kết quả Ni 
2. Nếu Ni và Nj là các đỉnh chỉ nhận, và nhãn có 
phần chung, thì trả ra một đỉnh mới có nhãn là phần 
giao. Ngược lại, hai DAG không hợp nhất được. 
3. Nếu Ni và Nj đều không phải là đỉnh chỉ nhận, thì 
tạo một đỉnh mới N. Với mỗi cung từ đi Ni đến NFi 
có nhãn là F: 
− Nếu có cung F đi từ Nj đến NFj thì gọi đệ quy 
trên NFi và NFj. Vẽ cung F từ N đến đỉnh kết quả 
của phép gọi. 
− Nếu không có cung F nào xuất chỉ phát từ Nj, vẽ 
một cung từ N đến NFi. 
− Với mỗi cung F từ Nj đến NFj sao cho không có 
cung F nào đi ra từ Ni, vẽ một cung mới có nhãn 
F từ N đến NFj. 
Giải thuật hợp nhất đồ thị được áp dụng trong giải 
thuật xây dựng cấu tử mới bằng phương trình hợp 
nhất đồ thị, làm cơ sở cho việc xây dụng bộ phân tích 
cú pháp sử dụng các giải thuật phân tích cú pháp tiêu 
chuẩn, như được trình bày dưới đây. 
3. Giải thuật xây dựng cấu tử mới 
Cho luật X0 Æ X1  Xn và một tập phương trình 
nét Fi = V, 
gọi SC1, , SCn là các cấu tử con tương ứng với 
X1, , Xn. 
Giải thuật xây dựng một DAG thỏa tất cả các 
phương trình nét. 
1. Tạo đỉnh CC0 là đỉnh gốc của cấu trúc nét mới. 
2. Copy mỗi DAG có gốc là SCi thành các DAG có 
gốc mới là CCi, thêm các cung có nhãn i đi từ CC0 
đến CCi. 
3. Với mỗi phương trình Fi = V (V là trị), theo cung 
F từ đỉnh CCi đến đỉnh Ni và hợp nhất Ni với V. 
4. Với mỗi phương trình nét Fi = Gj: 
− Nếu có một cung F xuất phát từ CCi và một cung 
G từ CCj, thì: 
i. theo cung F đến đỉnh Ni và theo cung G đến 
đỉnh Nj; 
ii. hợp nhất Ni và Nj bằng giải thuật hợp nhất 
đồ thị, tạo ra đỉnh mới X; 
iii. chuyển mục tiêu của các cung từ Ni hay Nj 
đến X, 
− Nếu không có cung F nào xuất phát từ CCi nhưng 
có một cung G xuất phát từ CCj đến Nj, thì tạo 
một cung F đi từ CCi đến Nj; 
− Nếu không có cung G nào từ CCj, nhưng có một 
cung F từ CCi đến Ni, thì tạo một cung G từ CCj 
đến Ni. 
V. ĐẶC ĐIỂM CỦA TỪ TRONG NGỮ PHÁP 
TIẾNG VIỆT 
1. Đặc điểm của từ tiếng Việt 
Từ trong tiếng Việt không biến hình, có hiện tượng 
từ trùng hình vị, và nhiều từ ghép có kết cấu tự do 
([2]). Ngoài ra, các phạm trù ngôi, giống, số của danh 
từ, ngôi, giống, số, thì, cách của động từ là các phạm 
trù từ pháp trong tiếng Anh, lại là các phạm trù cú 
pháp và ngữ nghĩa trong tiếng Việt. 
Xét ví dụ: 
Các câu tiếng Anh: 
I know her, and she knows me. 
I ‘ve liked her for 3 years. 
I liked her 3 years ago. 
Câu tiếng Việt tương ứng: 
Tôi biết cô ta, và cô ta biết tôi. 
Tôi thích cô ta đã 3 năm. 
Tôi đã thích cô ta 3 năm về trước. 
Trong tiếng Anh, sự biến thể của đại từ I-me, she-
her, của động từ know-knows, like-liked làm cho từ 
vựng tiếng Anh đã hàm chứa yếu tố ngữ pháp, giúp 
cho sự phân tích cú pháp của câu dễ dàng hơn. Chẳng 
 hạn đại từ me phải có chức năng cú pháp là túc từ 
trong câu, trong khi đại từ I phải là chủ từ. Nếu chủ 
ngữ là she thì động từ phải ở ngôi thứ 3 số ít (knows). 
Đối chiếu với các câu tương ứng trong tiếng Việt, 
các đại từ tôi và cô ta không thay đổi bất chấp chức 
năng chủ từ hay túc từ của nó. Thì của câu không 
đựơc quy định bởi hình vị của động từ thích mà do 
phó từ đã , và còn phụ thuộc vào vị trí của phó từ. 
2. Từ loại trong tiếng Việt 
Các tiêu chí phân loại: dựa vào ý nghĩa phạm trù 
gồm nghĩa từ vựng, nghĩa ngữ pháp, và dựa vào khả 
năng kết hợp trong cụm từ và trong câu. ([3]) 
Từ tiếng Việt được chia làm 2 nhóm lớn là thực từ 
và hư từ. 
Thực từ: mang ý nghĩa từ vựng, có khả năng làm 
thành phần câu, và có khả năng làm trung tâm cụm từ. 
Hư từ: không có ý nghĩa từ vựng, không độc lập tạo 
thành câu, và dùng để làm thành tố trong cụm từ hoặc 
liên kết tạo cụm từ mới. 
Phân loại nhỏ hơn, thực từ gồm: danh từ, động từ, 
tính từ, số từ và đại từ; hư từ gồm: phụ từ, liên từ, 
hình thái từ, trợ từ. 
3. Một số nhận xét 
Ngoài những khó khăn trong việc phân định từ-từ 
tiếng Việt không được xác định một cách tường minh 
bằng khoảng trắng ([6]), các đặc tính của ngôn ngữ 
tiếng Việt vừa trình bày cho thấy việc phân tích một 
câu tiếng Việt yêu cầu phải có thông tin về cú pháp 
lẫn ngữ nghĩa. Do vậy, trong xử lý tiếng Việt, nếu 
tách rời hai giai đoạn phân tích cú pháp-xử lý ngữ 
nghĩa theo quy ước như trong các phương pháp xử lý 
ngôn ngữ tiếng Anh, sẽ gặp không ít khó khăn. 
Liên hệ với khái niệm cấu trúc nét đã đề cập, các 
nét trong một cấu tử tiếng Việt không chỉ mô tả thông 
tin ngữ pháp vốn rất “nghèo” trong tiếng Việt, ta cần 
đưa thêm các nét ngữ nghĩa cần thiết cho quá trình 
phân tích. 
Tập hợp các nét giúp xác định đúng vai trò của một 
thành phần trong mối liên hệ với các thành phần còn 
lại của câu, sao cho đạt được một sự phân tích hoàn 
chỉnh, được gọi là “chủ tố” của cấu tử. 
Năm nét quan trọng xác định chủ tố của một cấu tử 
gồm: ([4]) 
1. Các nét cú pháp và ngữ nghĩa, 
2. Cấu trúc đối số vị ngữ và các hạn chế ngữ nghĩa 
trên các đối số của một head, 
3. Trật tự của từ, 
4. Các trường hợp biến thể: bao gồm tiền tố, hậu tố, 
5. Kiến thức về thế giới chung quanh. 
Nói cách khác, mối liên hệ giữa các từ được biểu 
diễn qua các ràng buộc cú pháp, ngữ nghĩa, và trật tự 
từ. Trong phần sau đây chúng tôi đề xuất một cấu trúc 
nét hợp nhất phù hợp cho xử lý ngôn ngữ tự nhiên 
tiếng Việt, phân tích sự kết hợp các danh từ để hình 
thành cụm danh từ. 
VI. PHÂN TÍCH CỤM DANH TỪ TIẾNG VIỆT 
DÙNG VĂN PHẠM HỢP NHẤT 
1. Cấu trúc nét cho danh từ tiếng Việt 
Danh từ tiếng Việt được chia thành các tiểu loại: 
danh từ riêng, tổng hợp, chỉ loại, chỉ đơn vị, chỉ chất 
liệu, sinh vật, vật, trừu tượng ([3]). Sự kết hợp các 
danh từ để hình thành cụm danh từ trong tiếng Việt 
cần tuân thủ một số quy tắc kết hợp nhất định mang 
tính ngữ nghĩa, có thể biểu diễn bằng cấu trúc nét. 
Chẳng hạn: Các danh từ chỉ loại: con, cái, chiếc, 
hòn, bức, cuốn, quả có thể kết hợp với các danh từ 
động vật, danh từ chỉ vật, nhưng không phải luôn luôn 
hợp nghĩa. Những kết hợp có nghĩa: cái bàn, hòn bi, 
con gà, bức vách, cuốn sách; các kết hợp không có 
nghĩa: hòn bàn, con chiếu, cái gà, cuốn vách, bức 
sách. 
Do đó trong cấu tử danh từ cần có các nét ngữ 
nghĩa làm căn cứ cho sự kết hợp, được đề xuất như 
dưới đây. 
− attribute: LEX, CAT, NATURE, SHAPE, SIZE. 
− value: nk (danh từ chỉ loại), nt (danh từ chỉ vật), na 
(danh từ chỉ động vật), , tròn, bé, lớn, 
− feature: LEX “bàn”, CAT nt, SHAPE tròn, SIZE 
lớn, 
− Cấu tử: 
NK1 (CAT nk 
 LEX quả 
 SHAPE tròn 
 SIZE lớn 
 NATURE vật) 
NT1 (CAT nk 
 LEX bóng 
 SHAPE tròn 
 SIZE lớn 
 NATURE vật) 
Một từ điển nét cho danh từ tiếng Việt được trình 
bày trong bảng 1. 
Bảng 1. Từ điển nét cho danh từ tiếng Việt 
NK1 (CAT nk 
 LEX “quả” 
 SHAPE tròn 
 SIZE lớn 
 NATURE 
 {vật, thực vật}) 
NK3 (CAT nk 
 LEX “cuốn” 
 SHAPE vuông/mỏng
 SIZE bé 
 NATURE vật) 
NT1 (CAT nt 
 LEX “bóng” 
 SHAPE tròn 
 SIZE lớn 
 NATURE vật) 
NT3 (CAT nt 
 LEX “sách” 
 SHAPE vuông/mỏng
 SIZE bé 
 NATURE vật) 
NK2 (CAT nk 
 LEX “viên” 
 SHAPE tròn 
 SIZE bé 
 NATURE vật) 
NK4 (CAT nk 
 LEX “con” 
 SHAPE any 
 SIZE bé 
 NATURE động vật) 
NT2 (CAT nt 
 LEX “bi” 
 SHAPE tròn 
 SIZE bé 
 NATURE vật) 
NA1 (CAT na 
 LEX “mèo” 
 SHAPE any 
 SIZE bé 
 NATURE động vật) 
2. Văn phạm hợp nhất 
Văn phạm chứa các luật của quy định sự kết hợp 
cụm danh từ tiếng Việt được xây dựng như bảng 2. 
Bảng 2. Văn phạm hợp nhất 
1. NP Æ NK NT 
 CAT0 = nt 
 CAT1 = nk 
 CAT2 = nt 
 SHAPE0 = SHAPE1 = SHAPE2
 SIZE0 = SIZE1 = SIZE2
 NATURE0 =NATURE1 =NATURE2
2. NP Æ NK NA 
 CAT0 = na 
 CAT1 = nk 
 CAT2 = na 
 SHAPE0 = SHAPE1 = SHAPE2
 SIZE0 = SIZE1 = SIZE2 
 NATURE0 =NATURE1 =NATURE2
Trên cơ sở từ điển nét, văn phạm hợp nhất và giải 
thuật hợp nhất, ta xây dựng được các kết hợp: quả 
bóng, hòn bi, cuốn sách, mà không có các kết hợp: 
hòn bóng, quả sách, cuốn bi, như minh họa dưới đây. 
Cho các cấu tử NK1 “quả” và NT1 “bóng”: 
1. NK1 (CAT nk 
 LEX quả 
 SHAPE tròn 
 SIZE lớn 
 NATURE {vật, thực vật}) 
2. NT1 (CAT nt 
 LEX bóng 
 SHAPE tròn 
 SIZE lớn 
 NATURE vật) 
Có biểu diễn DAG trong hình 2. 
Thực hiện giải thuật tạo cấu tử mới trên văn phạm 
được cho trong bảng 1, ta có kết quả là cấu tử mới của 
cụm danh từ “quả bóng” với biểu diễn DAG được cho 
trong hình 3. 
 quả bóng 
VII. KẾT LUẬN 
Phân tích câu là một 
giai đoạn cơ bản trong xử 
lý ngôn ngữ tự nhiên nói 
chung và dịch máy nói 
riêng. Trong bài báo này, 
chúng tôi đã trình bày về 
văn phạm nét, văn phạm 
hợp nhất, và giải thuật 
hợp nhất trong xử lý ngôn 
ngữ tự nhiên, là các 
phương pháp tiêu chuẩn 
rất hữu hiệu trong phân 
tích ngôn ngữ tiếng Anh. 
Nắm vững các công cụ này và 
đưa ra một tiếp cận thích hợp 
với đặc trưng ngữ pháp tiếng 
Việt: xây dựng hệ thống nét 
ngữ nghĩa và quy tắc văn 
phạm hợp nhất cho danh từ 
tiếng Việt nhằm phân tích sự 
kết hợp thành cụm danh từ. 
 Hình 2. Biểu diễn DAG của các cấu tử NK1 “quả” và NT1 “bóng” 
Hình 3. Biểu diễn DAG của cấu tử “quả bóng” kết quả hợp nhất các DAG NK1 
 và NT1 sử dụng văn phạm hợp nhất trong bảng 1 
Hì h 4 Mà hì h h ì h hiệ h iải h ậ hâ í h d h ừ iế Việ
NK1 
nk 
tròn 
lớn 
vật 
LEX 
SHAPE 
SIZE 
NATURE 
CC2 
NT1 
nk 
tròn 
lớn 
LEX 
CAT 
SHAPE 
SIZE 
NATURE 
vật 
bóng 
LEX CAT 
quả 
nk LEX CAT 1
CC0 
NP 
CAT 
2 
tròn 
lớn 
vật 
SHAPE 
SIZE 
NATURE 
SHAPE 
 SHAPE 
SIZE 
SIZE 
CC1 
NATURE
NATURE nt 
CC2 
 Kết quả này có khả năng mở rộng cho sự phân tích 
các loại cụm từ tiếng Việt căn cứ vào quy tắc cú pháp 
hoặc ngữ nghĩa, tham gia vào việc xây dựng các mô 
hình ứng dụng xử lý ngôn ngữ tự nhiên và ứng dụng 
cho dịch tự động Anh-Việt, Việt-Anh.Giải thuật phân 
tích được hiện thực thử nghiệm bằng ngôn ngữ Java, 
có màn hình mô tả trong hình 4, trong đó sử dụng gói 
thư viện ngôn ngữ tự nhiên được cung cấp bởi 
SourceForge [8] dành cho các mục tiêu học tập và 
nghiên cứu. Chúng tôi dự kiến trong tương lai sẽ xây 
dựng hệ thống nét đầy đủ hơn cho cụm danh từ tiếng 
Việt, hoàn thiện chương trình phân tích và có những 
đánh giá đầy đủ hơn về tiếp cận này. 
TÀI LIỆU THAM KHẢO 
[1] James Allen, Natural Language Understanding, 
Benja-min Cummings Publishing Company 1995, pp 
83-118. 
[2] PTS. Đỗ thị Kim Liên, Ngữ pháp Tiếng Việt , Nhà xuất 
bản Giáo Dục 2002, Tái bản lần thứ nhất, tr. 17-19. 
[3] PTS. Đỗ thị Kim Liên, Ngữ pháp Tiếng Việt , Nhà xuất 
bản Giáo Dục 2002, Tái bản lần thứ nhất, tr. 44-47. 
[4] Chen, K.J., C.R. Huang and L.P. Chang, 1989, The 
Identification of Thematic Roles in Parsing Mandarin 
Chinese, Proceedings of ROCLING II, Taipei, Taiwan. 
[5] Phan Thị Tươi, Nguyễn Chí Hiếu, Phân tích cú pháp 
và dịch máy, Tạp chí KH và công nghệ, Hà Nội 2002. 
[6] Trần Ngọc Tuấn, Vietnamese Word Segmentation 
using Corpus and Statistical Models, Proceedings of 
School on Scientific Computing and Applications, 
March 2002, Ho Chi Minh City, VietNam, pp 135-140. 
[7] Helmut Schmid, Parsing and Disambiguation with 
Feature-Based Grammar, Proceedings of AIMS 2000 
(Arbeitspapiere des Instituts für Maschinelle 
Sprachverarbeitung) Stuttgart University, Germany. 
[8] SourceForge.net, 2003, nlpFarm, địa chỉ 
 nlplib-0.2.1. 
Ngày nhận bài 23/03/2004 
SƠ LƯỢC TÁC GIẢ 
TRẦN NGỌC TUẤN 
Tốt nghiệp ĐH Đà Lạt năm 
1982 ngành Toán ứng dụng và 
ĐH Bách Khoa TP. HCM năm 
1997 ngành Kỹ thuật máy tính, 
nhận bằng Thạc sĩ Công nghệ 
thông tin tại ĐH Bách Khoa TP. 
HCM năm 2002. Hiện là NCS 
tại K. Công nghệ thông tin, ĐH 
Bách Khoa TP. HCM. 
Lĩnh vực quan tâm nghiên cứu: lý thuyết xử lý ngôn 
ngữ tự nhiên và các ứng dụng vào dịch máy Anh-Việt, 
Việt-Anh. 
E-mail: tntuan@dit.hcmut.edu.vn
PHAN THỊ TƯƠI 
Tốt nghiệp Đại học Kỹ thuật 
Tiệp Khắc-CVUT năm 1976 
ngành Kỹ thuật điều khiển, 
nhận bằng Tiến sĩ tại Đại học 
Charles, Tiệp Khắc năm 1985 
ngành Lý thuyết điều khiển. 
Hiện đang công tác tại Đại 
học Bách khoa TP.HCM 
Lĩnh vực nghiên cứu là xử 
lý ngôn ngữ tự nhiên. 
E-mail: tuoi@dit.hcmut.edu.vn

File đính kèm:

  • pdfphan_tich_cum_danh_tu_tieng_viet_su_dung_van_pham_hop_nhat.pdf