Phân tích cụm danh từ tiếng Việt sử dụng văn phạm hợp nhất - Phan tich cum danh tu tieng Viet su dung van pham hop nhat

Tóm tắt Phân tích cụm danh từ tiếng Việt sử dụng văn phạm hợp nhất: ... Đỉnh chỉ nhận: là đỉnh không có cung đi ra. Cấu tử N1: (CAT N ROOT fish AGR {3s 3p}) có biểu diễn DAG như trong hình 1. N1CAT ROOTN {3s,3p} AGR fish Hình 1. Biểu diễn DAG của cấu tử N1 (CAT N ROOT fish AGR {3s 3p}) 2. Giải thuật hợp nhất đồ thị Input: Hai DAG có gốc là Ni... vị trí của phó từ. 2. Từ loại trong tiếng Việt Các tiêu chí phân loại: dựa vào ý nghĩa phạm trù gồm nghĩa từ vựng, nghĩa ngữ pháp, và dựa vào khả năng kết hợp trong cụm từ và trong câu. ([3]) Từ tiếng Việt được chia làm 2 nhóm lớn là thực từ và hư từ. Thực từ: mang ý nghĩa từ vựng, có...n SIZE lớn NATURE {vật, thực vật}) NK3 (CAT nk LEX “cuốn” SHAPE vuông/mỏng SIZE bé NATURE vật) NT1 (CAT nt LEX “bóng” SHAPE tròn SIZE lớn NATURE vật) NT3 (CAT nt LEX “sách” SHAPE vuông/mỏng SIZE bé NATURE vật) NK2 (CAT nk LEX “viên” SHAPE tròn...

7 trang | Chia sẻ: havih72 | Lượt xem: 548 | Lượt tải: 0

Nội dung tài liệu Phân tích cụm danh từ tiếng Việt sử dụng văn phạm hợp nhất, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Phân tích cụm danh từ tiếng Việt
sử dụng văn phạm hợp nhất
Vietnamese Noun Phrase Parsing Using Unification Grammar
Trần Ngọc Tuấn, Phan Thị Tươi
Abstract: This paper presents in brief about grammar
augmented with feature system, unification grammar and
unification parsing algorithm, applying to Vietnamese
natural language processing.We propose here a semantic
approach in creating feature system for Vietnamese
lexicon, and the unification parsing for Vietnamese noun
phrase which heads by a noun of types.The demostration
program is written in Java which uses library packages
provided by SourceForge for education purposes.
I. ĐẶT VẤN ĐỀ
Phân tích cú pháp là một trong những công cụ cơ
bản của xử lý ngôn ngữ tự nhiên, hầu hết các ứng
dụng xử lý ngôn ngữ tự nhiên đều sử dụng một bộ
phân tích cú pháp trong một giai đoạn nào đó. Trong
các hệ thống dịch máy, đó là các giai đoạn phân tích
câu nguồn, phát sinh câu đích ([5]). Nhiều loại văn
phạm sử dụng cấu trúc nét để biểu diễn những tính
chất cú pháp của các yếu tố văn phạm, trong số đó có
Lexical Functional Grammar (LFG), Head-Driven
Phrase Structure Grammar (HPSG), Definite Clause
Grammar (DCG) [1]. Các loại văn phạm như thế được
gọi chung là văn phạm gia tố có hệ thống nét. (Bên
dưới sẽ được gọi vắn tắt là văn phạm gia tố).
Văn phạm gia tố và các giải thuật phân tích kinh
điển như chart parsing đã phát huy tác dụng trong xử
lý ngôn ngữ tự nhiên cho các ngôn ngữ Ấn-Âu, điển
hình là tiếng Anh, nhờ các đặc trưng hình vị từ vựng
[1]. Vận dụng các nguyên tắc của văn phạm gia tố vào
xử lý ngôn ngữ tự nhiên tiếng Việt, là ngôn ngữ có
văn phạm không phụ thuộc hình vị từ vựng, đòi hỏi
những vận dụng thích hợp. Ở đây chúng tôi đưa ra
một tiếp cận xây dựng hệ thống nét dựa vào ngữ nghĩa
từ vựng và áp dụng giải thuật hợp nhất vào phân tích
cụm danh từ tiếng Việt.
Chương trình thử nghiệm xây dựng bằng Java sử
dụng gói thư viện xử lý ngôn ngữ tự nhiên do
SourceForge [8] cung cấp cho thấy khả năng thích
ứng các cấu trúc nét ngữ nghĩa của danh từ tiếng Việt
trong giải thuật phân tích hợp nhất. Chúng tôi hy vọng
có một đóng góp nhỏ trong nghiên cứu xử lý ngôn
ngữ tự nhiên tiếng Việt nói chung và ứng dụng trong
dịch máy Anh-Việt, Việt-Anh nói riêng.
II. NÉT VÀ VĂN PHẠM GIA TỐ
1. Cấu trúc nét
Tập nét F chứa những thuộc tính có thể của các đơn
vị văn phạm, tập trị nét VF gồm các giá trị có thể gán
cho phần tử thuộc tập nét. Cấu tử (hay cấu trúc nét) là
một ánh xạ: F Æ VF biểu diễn hệ thống thuộc tính và
trị tương ứng của một đơn vị văn phạm.
Cho
F = {ROOT, CAT, NUMBER}
VF = {ART, s, p, “a”, “fish”}
Cấu tử
ART1: (CAT ART
ROOT “a”
NUMBER s)
biểu diễn hệ thống thuộc tính văn phạm: mạo từ
“a” số ít.
Dạng rút gọn:
ART1: (ART ROOT a NUMBER s)
Cấu trúc nét có thể biểu diễn dưới dạng thứ bậc
nhiều cấp, trong đó một cấu trúc nét tự thân nó là trị,
các số 1, 2, 3, đại diện cho các cấu tử con thứ nhất,
thứ hai, thứ ba, bên dưới một cấu tử cấp cao hơn.
Luật trong văn phạm gia tố được biểu diễn dưới
dạng cấu trúc nét có chứa biến, nhờ đó có thể áp dụng
luật cho nhiều tình huống khác nhau. Chẳng hạn luật
gia tố cho cụm danh từ đơn giản:
(NP NUMBER ?n) Æ
(ART NUMBER ?n) (N NUMBER ?n)
2. Từ điển và văn phạm gia tố
Từ điển cần được định nghĩa trước khi xây dựng
văn phạm. Thay vì phải chứa tất cả các từ cần thiết,
với phương pháp hữu hạn trạng thái và khái niệm cấu
tử, từ điển chỉ cần chứa các mục từ là cấu tử từ vựng
cho từ nguyên với tập nét thể hiện quy tắc hình thái
học.
Luật gia tố có dạng: A Æ X1 X2 Xn
trong đó: vế trái A là cấu tử cha, vế phải là các cấu
tử con.
Mỗi ký hiệu là một cấu tử có dạng: (Category
{Feature Variable | Value}*)
Xi có tất cả các trị nét đồng nhất với A gọi là cấu tử
con đứng đầu, tập nét như thế gọi là nét đầu và được
thể hiện bằng chữ in nghiêng.
III. VĂN PHẠM HỢP NHẤT
Cấu trúc nét có thể được tổng quát hóa đến mức
không còn cần đến văn phạm. Toàn bộ văn phạm lúc
đó như là một tập các ràng buộc giữa các cấu trúc nét.
Một hệ thống như vậy được gọi là Văn phạm hợp nhất
(Unification Grammar).
1. Nét mở rộng
Nét F1 được gọi là mở rộng (hay còn gọi là cụ thể
hóa) nét F2 nếu mọi trị nét trong F1 đều có trong F2.
(CAT V
ROOT cry)
là mở rộng (CAT V)
Hai cấu trúc (CAT V
ROOT cry)
và (CAT V
VFORM pres)
không mở rộng lẫn nhau.
2. Nét hợp nhất
Hai cấu trúc nét hợp nhất nếu có một cấu trúc nét
mở rộng cả hai. Hợp nhất tổng quát nhất là cấu trúc
nét bé nhất mở rộng cả hai.
Hai cấu trúc (CAT V
ROOT cry)
và (CAT V
VFORM pres)
có hợp nhất tổng quát nhất là:
(CAT V
ROOT cry
VFORM pres)
3. Văn phạm hợp nhất
Dạng luật gia tố:
(S INV- VFORM ?v {pres past} AGR ?a) Æ (NP
AGR ?a) (VP VFORM ?v {pres past} AGR ?a)
biểu diễn dưới dạng văn phạm hợp nhất:
X0 Æ X1 X2 CAT0=S
CAT1=NP
CAT2=VP
AGR0=AGR1=AGR2
VFORM0=VFORM2
Dạng rút gọn:
S Æ NP VP AGR=AGR1=AGR2
VFORM=VFORM2
IV. GIẢI THUẬT HỢP NHẤT
1. Biểu diễn đồ thị có hướng, không chu trình
DAG của cấu trúc nét
Đỉnh: có nhãn là cấu tử, trị; Cung: có nhãn là nét.
Đỉnh chỉ phát: là đỉnh không có cung đến, mỗi
DAG có duy nhất 1 đỉnh chỉ phát gọi là đỉnh gốc.
Đỉnh chỉ nhận: là đỉnh không có cung đi ra. Cấu tử
N1: (CAT N
ROOT fish
AGR {3s 3p})
có biểu diễn DAG như trong hình 1.
N1CAT
ROOTN {3s,3p}
AGR
fish
Hình 1. Biểu diễn DAG của cấu tử N1
(CAT N ROOT fish AGR {3s 3p})
2. Giải thuật hợp nhất đồ thị
Input: Hai DAG có gốc là Ni và Nj
Output: DAG hợp nhất
Method:
1. Nếu Ni =Nj thì kết thúc với kết quả Ni
2. Nếu Ni và Nj là các đỉnh chỉ nhận, và nhãn có
phần chung, thì trả ra một đỉnh mới có nhãn là phần
giao. Ngược lại, hai DAG không hợp nhất được.
3. Nếu Ni và Nj đều không phải là đỉnh chỉ nhận, thì
tạo một đỉnh mới N. Với mỗi cung từ đi Ni đến NFi
có nhãn là F:
− Nếu có cung F đi từ Nj đến NFj thì gọi đệ quy
trên NFi và NFj. Vẽ cung F từ N đến đỉnh kết quả
của phép gọi.
− Nếu không có cung F nào xuất chỉ phát từ Nj, vẽ
một cung từ N đến NFi.
− Với mỗi cung F từ Nj đến NFj sao cho không có
cung F nào đi ra từ Ni, vẽ một cung mới có nhãn
F từ N đến NFj.
Giải thuật hợp nhất đồ thị được áp dụng trong giải
thuật xây dựng cấu tử mới bằng phương trình hợp
nhất đồ thị, làm cơ sở cho việc xây dụng bộ phân tích
cú pháp sử dụng các giải thuật phân tích cú pháp tiêu
chuẩn, như được trình bày dưới đây.
3. Giải thuật xây dựng cấu tử mới
Cho luật X0 Æ X1 Xn và một tập phương trình
nét Fi = V,
gọi SC1, , SCn là các cấu tử con tương ứng với
X1, , Xn.
Giải thuật xây dựng một DAG thỏa tất cả các
phương trình nét.
1. Tạo đỉnh CC0 là đỉnh gốc của cấu trúc nét mới.
2. Copy mỗi DAG có gốc là SCi thành các DAG có
gốc mới là CCi, thêm các cung có nhãn i đi từ CC0
đến CCi.
3. Với mỗi phương trình Fi = V (V là trị), theo cung
F từ đỉnh CCi đến đỉnh Ni và hợp nhất Ni với V.
4. Với mỗi phương trình nét Fi = Gj:
− Nếu có một cung F xuất phát từ CCi và một cung
G từ CCj, thì:
i. theo cung F đến đỉnh Ni và theo cung G đến
đỉnh Nj;
ii. hợp nhất Ni và Nj bằng giải thuật hợp nhất
đồ thị, tạo ra đỉnh mới X;
iii. chuyển mục tiêu của các cung từ Ni hay Nj
đến X,
− Nếu không có cung F nào xuất phát từ CCi nhưng
có một cung G xuất phát từ CCj đến Nj, thì tạo
một cung F đi từ CCi đến Nj;
− Nếu không có cung G nào từ CCj, nhưng có một
cung F từ CCi đến Ni, thì tạo một cung G từ CCj
đến Ni.
V. ĐẶC ĐIỂM CỦA TỪ TRONG NGỮ PHÁP
TIẾNG VIỆT
1. Đặc điểm của từ tiếng Việt
Từ trong tiếng Việt không biến hình, có hiện tượng
từ trùng hình vị, và nhiều từ ghép có kết cấu tự do
([2]). Ngoài ra, các phạm trù ngôi, giống, số của danh
từ, ngôi, giống, số, thì, cách của động từ là các phạm
trù từ pháp trong tiếng Anh, lại là các phạm trù cú
pháp và ngữ nghĩa trong tiếng Việt.
Xét ví dụ:
Các câu tiếng Anh:
I know her, and she knows me.
I ‘ve liked her for 3 years.
I liked her 3 years ago.
Câu tiếng Việt tương ứng:
Tôi biết cô ta, và cô ta biết tôi.
Tôi thích cô ta đã 3 năm.
Tôi đã thích cô ta 3 năm về trước.
Trong tiếng Anh, sự biến thể của đại từ I-me, she-
her, của động từ know-knows, like-liked làm cho từ
vựng tiếng Anh đã hàm chứa yếu tố ngữ pháp, giúp
cho sự phân tích cú pháp của câu dễ dàng hơn. Chẳng
hạn đại từ me phải có chức năng cú pháp là túc từ
trong câu, trong khi đại từ I phải là chủ từ. Nếu chủ
ngữ là she thì động từ phải ở ngôi thứ 3 số ít (knows).
Đối chiếu với các câu tương ứng trong tiếng Việt,
các đại từ tôi và cô ta không thay đổi bất chấp chức
năng chủ từ hay túc từ của nó. Thì của câu không
đựơc quy định bởi hình vị của động từ thích mà do
phó từ đã , và còn phụ thuộc vào vị trí của phó từ.
2. Từ loại trong tiếng Việt
Các tiêu chí phân loại: dựa vào ý nghĩa phạm trù
gồm nghĩa từ vựng, nghĩa ngữ pháp, và dựa vào khả
năng kết hợp trong cụm từ và trong câu. ([3])
Từ tiếng Việt được chia làm 2 nhóm lớn là thực từ
và hư từ.
Thực từ: mang ý nghĩa từ vựng, có khả năng làm
thành phần câu, và có khả năng làm trung tâm cụm từ.
Hư từ: không có ý nghĩa từ vựng, không độc lập tạo
thành câu, và dùng để làm thành tố trong cụm từ hoặc
liên kết tạo cụm từ mới.
Phân loại nhỏ hơn, thực từ gồm: danh từ, động từ,
tính từ, số từ và đại từ; hư từ gồm: phụ từ, liên từ,
hình thái từ, trợ từ.
3. Một số nhận xét
Ngoài những khó khăn trong việc phân định từ-từ
tiếng Việt không được xác định một cách tường minh
bằng khoảng trắng ([6]), các đặc tính của ngôn ngữ
tiếng Việt vừa trình bày cho thấy việc phân tích một
câu tiếng Việt yêu cầu phải có thông tin về cú pháp
lẫn ngữ nghĩa. Do vậy, trong xử lý tiếng Việt, nếu
tách rời hai giai đoạn phân tích cú pháp-xử lý ngữ
nghĩa theo quy ước như trong các phương pháp xử lý
ngôn ngữ tiếng Anh, sẽ gặp không ít khó khăn.
Liên hệ với khái niệm cấu trúc nét đã đề cập, các
nét trong một cấu tử tiếng Việt không chỉ mô tả thông
tin ngữ pháp vốn rất “nghèo” trong tiếng Việt, ta cần
đưa thêm các nét ngữ nghĩa cần thiết cho quá trình
phân tích.
Tập hợp các nét giúp xác định đúng vai trò của một
thành phần trong mối liên hệ với các thành phần còn
lại của câu, sao cho đạt được một sự phân tích hoàn
chỉnh, được gọi là “chủ tố” của cấu tử.
Năm nét quan trọng xác định chủ tố của một cấu tử
gồm: ([4])
1. Các nét cú pháp và ngữ nghĩa,
2. Cấu trúc đối số vị ngữ và các hạn chế ngữ nghĩa
trên các đối số của một head,
3. Trật tự của từ,
4. Các trường hợp biến thể: bao gồm tiền tố, hậu tố,
5. Kiến thức về thế giới chung quanh.
Nói cách khác, mối liên hệ giữa các từ được biểu
diễn qua các ràng buộc cú pháp, ngữ nghĩa, và trật tự
từ. Trong phần sau đây chúng tôi đề xuất một cấu trúc
nét hợp nhất phù hợp cho xử lý ngôn ngữ tự nhiên
tiếng Việt, phân tích sự kết hợp các danh từ để hình
thành cụm danh từ.
VI. PHÂN TÍCH CỤM DANH TỪ TIẾNG VIỆT
DÙNG VĂN PHẠM HỢP NHẤT
1. Cấu trúc nét cho danh từ tiếng Việt
Danh từ tiếng Việt được chia thành các tiểu loại:
danh từ riêng, tổng hợp, chỉ loại, chỉ đơn vị, chỉ chất
liệu, sinh vật, vật, trừu tượng ([3]). Sự kết hợp các
danh từ để hình thành cụm danh từ trong tiếng Việt
cần tuân thủ một số quy tắc kết hợp nhất định mang
tính ngữ nghĩa, có thể biểu diễn bằng cấu trúc nét.
Chẳng hạn: Các danh từ chỉ loại: con, cái, chiếc,
hòn, bức, cuốn, quả có thể kết hợp với các danh từ
động vật, danh từ chỉ vật, nhưng không phải luôn luôn
hợp nghĩa. Những kết hợp có nghĩa: cái bàn, hòn bi,
con gà, bức vách, cuốn sách; các kết hợp không có
nghĩa: hòn bàn, con chiếu, cái gà, cuốn vách, bức
sách.
Do đó trong cấu tử danh từ cần có các nét ngữ
nghĩa làm căn cứ cho sự kết hợp, được đề xuất như
dưới đây.
− attribute: LEX, CAT, NATURE, SHAPE, SIZE.
− value: nk (danh từ chỉ loại), nt (danh từ chỉ vật), na
(danh từ chỉ động vật), , tròn, bé, lớn,
− feature: LEX “bàn”, CAT nt, SHAPE tròn, SIZE
lớn,
− Cấu tử:
NK1 (CAT nk
LEX quả
SHAPE tròn
SIZE lớn
NATURE vật)
NT1 (CAT nk
LEX bóng
SHAPE tròn
SIZE lớn
NATURE vật)
Một từ điển nét cho danh từ tiếng Việt được trình
bày trong bảng 1.
Bảng 1. Từ điển nét cho danh từ tiếng Việt
NK1 (CAT nk
LEX “quả”
SHAPE tròn
SIZE lớn
NATURE
{vật, thực vật})
NK3 (CAT nk
LEX “cuốn”
SHAPE vuông/mỏng
SIZE bé
NATURE vật)
NT1 (CAT nt
LEX “bóng”
SHAPE tròn
SIZE lớn
NATURE vật)
NT3 (CAT nt
LEX “sách”
SHAPE vuông/mỏng
SIZE bé
NATURE vật)
NK2 (CAT nk
LEX “viên”
SHAPE tròn
SIZE bé
NATURE vật)
NK4 (CAT nk
LEX “con”
SHAPE any
SIZE bé
NATURE động vật)
NT2 (CAT nt
LEX “bi”
SHAPE tròn
SIZE bé
NATURE vật)
NA1 (CAT na
LEX “mèo”
SHAPE any
SIZE bé
NATURE động vật)
2. Văn phạm hợp nhất
Văn phạm chứa các luật của quy định sự kết hợp
cụm danh từ tiếng Việt được xây dựng như bảng 2.
Bảng 2. Văn phạm hợp nhất
1. NP Æ NK NT
CAT0 = nt
CAT1 = nk
CAT2 = nt
SHAPE0 = SHAPE1 = SHAPE2
SIZE0 = SIZE1 = SIZE2
NATURE0 =NATURE1 =NATURE2
2. NP Æ NK NA
CAT0 = na
CAT1 = nk
CAT2 = na
SHAPE0 = SHAPE1 = SHAPE2
SIZE0 = SIZE1 = SIZE2
NATURE0 =NATURE1 =NATURE2
Trên cơ sở từ điển nét, văn phạm hợp nhất và giải
thuật hợp nhất, ta xây dựng được các kết hợp: quả
bóng, hòn bi, cuốn sách, mà không có các kết hợp:
hòn bóng, quả sách, cuốn bi, như minh họa dưới đây.
Cho các cấu tử NK1 “quả” và NT1 “bóng”:
1. NK1 (CAT nk
LEX quả
SHAPE tròn
SIZE lớn
NATURE {vật, thực vật})
2. NT1 (CAT nt
LEX bóng
SHAPE tròn
SIZE lớn
NATURE vật)
Có biểu diễn DAG trong hình 2.
Thực hiện giải thuật tạo cấu tử mới trên văn phạm
được cho trong bảng 1, ta có kết quả là cấu tử mới của
cụm danh từ “quả bóng” với biểu diễn DAG được cho
trong hình 3.
quả bóng
VII. KẾT LUẬN
Phân tích câu là một
giai đoạn cơ bản trong xử
lý ngôn ngữ tự nhiên nói
chung và dịch máy nói
riêng. Trong bài báo này,
chúng tôi đã trình bày về
văn phạm nét, văn phạm
hợp nhất, và giải thuật
hợp nhất trong xử lý ngôn
ngữ tự nhiên, là các
phương pháp tiêu chuẩn
rất hữu hiệu trong phân
tích ngôn ngữ tiếng Anh.
Nắm vững các công cụ này và
đưa ra một tiếp cận thích hợp
với đặc trưng ngữ pháp tiếng
Việt: xây dựng hệ thống nét
ngữ nghĩa và quy tắc văn
phạm hợp nhất cho danh từ
tiếng Việt nhằm phân tích sự
kết hợp thành cụm danh từ.
Hình 2. Biểu diễn DAG của các cấu tử NK1 “quả” và NT1 “bóng”
Hình 3. Biểu diễn DAG của cấu tử “quả bóng” kết quả hợp nhất các DAG NK1
và NT1 sử dụng văn phạm hợp nhất trong bảng 1
Hì h 4 Mà hì h h ì h hiệ h iải h ậ hâ í h d h ừ iế Việ
NK1
nk
tròn
lớn
vật
LEX
SHAPE
SIZE
NATURE
CC2
NT1
nk
tròn
lớn
LEX
CAT
SHAPE
SIZE
NATURE
vật
bóng
LEX CAT
quả
nk LEX CAT 1
CC0
NP
CAT
2
tròn
lớn
vật
SHAPE
SIZE
NATURE
SHAPE
SHAPE
SIZE
SIZE
CC1
NATURE
NATURE nt
CC2
Kết quả này có khả năng mở rộng cho sự phân tích
các loại cụm từ tiếng Việt căn cứ vào quy tắc cú pháp
hoặc ngữ nghĩa, tham gia vào việc xây dựng các mô
hình ứng dụng xử lý ngôn ngữ tự nhiên và ứng dụng
cho dịch tự động Anh-Việt, Việt-Anh.Giải thuật phân
tích được hiện thực thử nghiệm bằng ngôn ngữ Java,
có màn hình mô tả trong hình 4, trong đó sử dụng gói
thư viện ngôn ngữ tự nhiên được cung cấp bởi
SourceForge [8] dành cho các mục tiêu học tập và
nghiên cứu. Chúng tôi dự kiến trong tương lai sẽ xây
dựng hệ thống nét đầy đủ hơn cho cụm danh từ tiếng
Việt, hoàn thiện chương trình phân tích và có những
đánh giá đầy đủ hơn về tiếp cận này.
TÀI LIỆU THAM KHẢO
[1] James Allen, Natural Language Understanding,
Benja-min Cummings Publishing Company 1995, pp
83-118.
[2] PTS. Đỗ thị Kim Liên, Ngữ pháp Tiếng Việt , Nhà xuất
bản Giáo Dục 2002, Tái bản lần thứ nhất, tr. 17-19.
[3] PTS. Đỗ thị Kim Liên, Ngữ pháp Tiếng Việt , Nhà xuất
bản Giáo Dục 2002, Tái bản lần thứ nhất, tr. 44-47.
[4] Chen, K.J., C.R. Huang and L.P. Chang, 1989, The
Identification of Thematic Roles in Parsing Mandarin
Chinese, Proceedings of ROCLING II, Taipei, Taiwan.
[5] Phan Thị Tươi, Nguyễn Chí Hiếu, Phân tích cú pháp
và dịch máy, Tạp chí KH và công nghệ, Hà Nội 2002.
[6] Trần Ngọc Tuấn, Vietnamese Word Segmentation
using Corpus and Statistical Models, Proceedings of
School on Scientific Computing and Applications,
March 2002, Ho Chi Minh City, VietNam, pp 135-140.
[7] Helmut Schmid, Parsing and Disambiguation with
Feature-Based Grammar, Proceedings of AIMS 2000
(Arbeitspapiere des Instituts für Maschinelle
Sprachverarbeitung) Stuttgart University, Germany.
[8] SourceForge.net, 2003, nlpFarm, địa chỉ
nlplib-0.2.1.
Ngày nhận bài 23/03/2004
SƠ LƯỢC TÁC GIẢ
TRẦN NGỌC TUẤN
Tốt nghiệp ĐH Đà Lạt năm
1982 ngành Toán ứng dụng và
ĐH Bách Khoa TP. HCM năm
1997 ngành Kỹ thuật máy tính,
nhận bằng Thạc sĩ Công nghệ
thông tin tại ĐH Bách Khoa TP.
HCM năm 2002. Hiện là NCS
tại K. Công nghệ thông tin, ĐH
Bách Khoa TP. HCM.
Lĩnh vực quan tâm nghiên cứu: lý thuyết xử lý ngôn
ngữ tự nhiên và các ứng dụng vào dịch máy Anh-Việt,
Việt-Anh.
E-mail: [email protected]
PHAN THỊ TƯƠI
Tốt nghiệp Đại học Kỹ thuật
Tiệp Khắc-CVUT năm 1976
ngành Kỹ thuật điều khiển,
nhận bằng Tiến sĩ tại Đại học
Charles, Tiệp Khắc năm 1985
ngành Lý thuyết điều khiển.
Hiện đang công tác tại Đại
học Bách khoa TP.HCM
Lĩnh vực nghiên cứu là xử
lý ngôn ngữ tự nhiên.
E-mail: [email protected]

File đính kèm:

phan_tich_cum_danh_tu_tieng_viet_su_dung_van_pham_hop_nhat.pdf