Dịch máy thống kê Pháp-Việt kết hợp thông tin giống hàng phân đoạn ngữ
Tóm tắt Dịch máy thống kê Pháp-Việt kết hợp thông tin giống hàng phân đoạn ngữ: ...hương pháp gióng hàng phân đoạn ngữ Trong bài báo này, sẽ sử dụng một bộ ngữ liệu song ngữ Pháp-Việt đã được gióng hàng ở cấp độ câu. Các câu tiếng Pháp được gán nhãn từ loại (POS tagging) và nhãn ranh giới ngữ (chunk tagging) bằng công cụ SEM đã được huấn luyện với ngữ liệu French Tree Bank [4]...hung với nhau theo tiêu chí số lượng từ tối thiểu trong ngữ, với ngưỡng θ = 3 trong ví dụ sau đây: Hình 1. Ví dụ rút trích phân đoạn ngữ trong tiếng Pháp với ngưỡng θ = 3 3.1.3. Xác định vùng biên cho các phân đoạn ngữ tiếng Việt Theo nhận xét của [5], khi dịch một câu từ tiếng Anh sang tiếng Ho...ở lại thành một tập đồng nhất. Như vậy, tập ngữ liệu đầu vào bao gồm hai phần. Phần thứ nhất là các câu song ngữ cơ sở và phần thứ hai là các cặp phân đoạn ngữ đã được gióng hàng. Tiếp đến kho ngữ liệu này sẽ được gióng hàng ở cấp độ từ với công cụ Giza++. Tương tự mô hình 2, sau đó chúng được h...
a nhóm Francisco Nevado [7]). Đối với hướng nghiên cứu thứ hai, nhóm [6] đã thực hiện thử nghiệm trên ngữ liệu song ngữ Anh-Việt, tuy nhiên kết quả còn một số hạn chế, đặc biệt là việc xác định phân đoạn ngữ cho tiếng Việt hiện này kết quả chưa cao. Còn với hướng nghiên cứu thứ nhất hiện nay vẫn chưa có bài báo nào được công bố cho tiếng Việt. Đây chính là một lý do khiến nhóm tác giả thực hiện nghiên cứu theo hướng này. Ngoài ra, cũng có nhóm tác giả dựa trên gióng hàng từ và xác suất gióng hàng để tìm các điểm cắt phân chia câu thành các phân đoạn có xác suất tốt nhất, từ đó xây dựng được các gióng hàng phân đoạn ngữ. Đối với nhóm [7], tác giả lại sử dụng các từ đánh dấu (marker- word) để chia cắt câu thành từng phân đoạn cho từng ngôn ngữ riêng lẻ. Sau đó, sử dụng quy hoạch động với xác suất gióng hàng từ để xác định gióng hàng phân đoạn ngữ. Dựa trên ý tưởng của nhóm Sun Le [5] , nhóm thực hiện phân đoạn ngữ của tiếng Pháp (là ngôn ngữ đã được nghiên cứu khá sâu và đã đạt được các kết quả phân đoạn ngữ khá chính xác), dùng từ điển song ngữ Pháp-Việt và tính chất biên của các từ được dịch để khử nhập nhằng về vị trí của các từ trong phân đoạn ngữ và xác định vùng biên của từng phân đoạn ngữ tiếng Pháp tương ứng với từng phân đoạn ngữ trong câu tiếng Việt. Từ đó, xây dựng được các phân đoạn ngữ gióng hàng Pháp-Việt đồng thời đưa ra một mô hình dịch máy thống kê Pháp-Việt kết hợp với kết quả gióng hàng phân đoạn ngữ này nhằm mục đích cải thiện chất lượng dịch cơ sở. 3. HƯỚNG TIẾP CẬN CỦA BÀI BÁO 3.1. Phương pháp gióng hàng phân đoạn ngữ Trong bài báo này, sẽ sử dụng một bộ ngữ liệu song ngữ Pháp-Việt đã được gióng hàng ở cấp độ câu. Các câu tiếng Pháp được gán nhãn từ loại (POS tagging) và nhãn ranh giới ngữ (chunk tagging) bằng công cụ SEM đã được huấn luyện với ngữ liệu French Tree Bank [4] dùng giải thuật Conditional Random Fields (CRF) và từ điển song ngữ Pháp-Việt được sử dụng để tham chiếu kết quả dịch của một từ tiếng Pháp sang tiếng Việt. Ta xác định các phân đoạn ngữ trong ngữ liệu tiếng Pháp. Sau đó dự đoán, thông qua kết quả dịch từ của từ điển song ngữ, những ranh giới phân đoạn ngữ trong câu tiếng Việt tương ứng với từng phân đoạn ngữ trong câu tiếng Pháp. Sự khử nhập nhằng về ranh giới ngữ trong tiếng Việt sẽ được giải quyết dựa trên vị trí dịch của các từ liền kề trong cùng phân đoạn ngữ tiếng Pháp. Quy trình thực hiện gồm 5 bước sau đây: Bước 1: Ngữ liệu song ngữ Pháp-Việt sẽ được tách ra thành hai tập ngữ liệu đơn ngữ. Tiếp đến tiến hành phân đoạn ngữ cho ngữ liệu tiếng Pháp. Các phân đoạn có số lượng từ nhỏ hơn ngưỡng θ thì sẽ được nhóm lại với phân đoạn liền kề. Các nhóm này sẽ được đánh nhãn thứ tự tăng dần. Bước 2: Tham chiếu trong từ điển song ngữ Pháp-Việt tìm các từ tiếng Việt là từ dịch của tập hợp từ trong các phân đoạn ngữ tiếng Pháp. Nếu tìm thấy trong từ điển này thì từ tiếng Việt sẽ được gán cùng nhãn phân đoạn ngữ với từ tiếng Pháp đang xét. Bước 3: Khử nhập nhằng cho các từ tiếng Việt có nhiều nhãn thứ tự dựa trên vị trí dịch của các từ liền kề trong cùng phân đoạn ngữ tiếng Pháp. Bước 4: Thiết lập các phân đoạn ngữ trong ngữ liệu tiếng Việt. DỊCH MÁY THỐNG KÊ PHÁP-VIỆT KẾT HỢP THÔNG TIN 361 Bước 5: Tạo các cặp câu được gióng hàng phân đoạn ngữ Pháp-Việt dựa trên các nhãn thứ tự trùng nhau trong cùng một cặp câu song ngữ Pháp-Việt. 3.1.1. Gán nhãn phân đoạn ngữ (chunk tagging) cho tiếng Pháp Ngữ được phân đoạn ngữ là những thành phần liên tục và tạo nên cấu trúc cú pháp của một câu. Để thực hiện việc gán nhãn phân đoạn ngữ tiếng Pháp, chúng tôi áp dụng mô hình học Conditional Random Fields (CRF) được giới thiệu bởi [6]. Mô hình học này là một mô hình xác suất cho phép gán nhãn các chuỗi dữ liệu tuyến tính. Hơn nữa, nó cho phép kết hợp cho một quan sát x một nhãn y dựa trên một tập hợp ví dụ đã được gán nhãn (x, y). Trong trường hợp này: Cho x = (x1, x2, x3, ..., xk) là tập hợp những dữ liệu đầu vào được quan sát hay nói cách khác x là một chuỗi đơn vị từ vựng tương ứng với nhãn từ loại (POS). Và y = (y1, y2, y3, ..., yk) là tập hợp những trạng thái hay nói cách khác y là một chuỗi các nhãn BIO tương ứng kết hợp từng loại phân đoạn ngữ (chunk). Mô hình CRF định nghĩa xác suất có điều kiện của một chuỗi trạng thái, biết rằng với một chuỗi đầu vào cho trước, bằng công thức như sau p(y/x) = 1 Z(x) ∏ exp( ∑ k λkfk(y, x, c)) (1) trong đó: Z(x) là hệ số chuẩn hoá, được định nghĩa rằng tổng trên y của tất cả các xác suất p(y/x) đối với một giá trị x nhất định được gán giá trị bằng 1 trong trường hợp này. ζ là tập hợp các phần tử con trên y. Các phần tử này bao gồm hoặc duy nhất một nút đơn lẻ hoặc một cặp các nút liền kề. fk là hàm đặc trưng (features) được định nghĩa trong mỗi phần tử con c, và thường được chọn để trả về giá trị nhị phân 0 hoặc 1. Theo định nghĩa, giá trị của các hàm đặc trưng này có thể phụ thuộc vào các nhãn y tồn tại trong một phần tử con c bất kỳ cũng như giá trị của các nhãn từ loại x trong dữ liệu đầu vào. λk là trọng số ở vị trí k, điều chỉnh giá trị tối ưu nhất ứng với mỗi hàm đặc trưng fk. Trong ngữ liệu tiếng Pháp, mỗi từ sau khi được gán nhãn từ loại, sẽ được gán nhãn ranh giới ngữ kết hợp với một nhãn theo mô hình BIO (Begin, In, Out). Mô hình BIO cho phép đánh dấu giới hạn ranh giới ngữ. Một ngữ bao gồm nhiều từ. Từ đầu tiên sẽ được đánh nhãn B, tiếp theo là I. Nhãn O được gán cho các từ không thuộc bất kỳ ngữ nào hoặc nằm riêng lẻ trong một câu. Ví dụ ta có hai trường hợp gán nhãn phân đoạn ngữ như sau: (a) (La commercialisation efficace)NP est plus exigeante. (b) (La commercialisation efficace)NP (est)VN (plus exigeante)AP. Kết hợp mô hình BIO, ta sẽ có kết quả: (a’) La/B-NP commercialisation/I-NP efficace/I-NP est/O plus/O exigeante/O. (b’) La/B-NP commercialisation/I-NP efficace/I-NP est/B-VN plus/B-AP exigeante/I- AP. Công cụ gán nhãn từ loại và gán nhãn phân đoạn ngữ cho tiếng Pháp là công cụ SEM. SEM (viết tắt của Segmenteur-Étiqueteur Markovien) là một bộ đánh nhãn được huấn luyện trên tập French Tree Bank (Abeillé, 2003) [4] của Đại Học Paris 7, Pháp. 3.1.2. Rút trích các phân đoạn ngữ tiếng Pháp 362 LÊ NGỌC TẤN, LÊ NGỌC TIẾN, ĐINH ĐIỀN Một ngữ được xác định là đúng khi và chỉ khi những ranh giới của nó và loại của nó đúng. Kết hợp mô hình BIO và thuật toán Conditional Random Fields trên tập huấn luyện French Tree Bank của Đại Học Paris 7, Pháp, ta có mô hình gán nhãn phân đoạn ngữ cơ sở (basechunking) cho tiếng Pháp. Ta thấy nếu chỉ sử dụng mô hình gán nhãn phân đoạn ngữ cơ sở này thì kết quả các ngữ tìm thấy rất thấp. Điều đó kéo theo hiệu quả thấp của việc khử nhập nhằng. Do đó ta thực hiện thao tác đánh thứ tự các nhãn từ trái sang phải cho các ngữ. Tiếp đến, dựa trên giới hạn biên của các phân đoạn ngữ, chúng được ghép lại chung với nhau theo tiêu chí số lượng từ tối thiểu trong ngữ, với ngưỡng θ = 3 trong ví dụ sau đây: Hình 1. Ví dụ rút trích phân đoạn ngữ trong tiếng Pháp với ngưỡng θ = 3 3.1.3. Xác định vùng biên cho các phân đoạn ngữ tiếng Việt Theo nhận xét của [5], khi dịch một câu từ tiếng Anh sang tiếng Hoa thì các từ trong một phân đoạn ngữ tiếng Anh có xu hướng được dịch thành một cụm các từ tiếng Hoa liền kề nhau và điều này cũng đúng trong cặp ngôn ngữ Pháp-Việt. Có nghĩa là một phân đoạn ngữ tiếng Pháp sẽ được gióng hàng với một phân đoạn ngữ trong tiếng Việt dựa trên các mục từ được xem là dịch của nhau tham chiếu qua từ điển song ngữ Pháp-Việt. Hình 2. Một vài ví dụ về gióng hàng phân đoạn ngữ Pháp-Việt Như vậy, để xác định các phân đoạn ngữ tiếng Việt tương ứng với các phân đoạn ngữ tiếng Pháp, đầu tiên ta cần gán thứ tự nhãn phân đoạn ngữ tiếng Pháp dựa theo mô hình gán nhãn CRF và mô hình BIO. Trong phân đoạn ngữ tiếng Việt, khi ta xét một từ được xem là từ dịch của một từ trong tiếng Pháp thì từ đó sẽ được gán cùng nhãn với từ tiếng Pháp DỊCH MÁY THỐNG KÊ PHÁP-VIỆT KẾT HỢP THÔNG TIN 363 đang xét. Trong ví dụ minh họa hình 3 dưới đây, khi tra từ điển song ngữ Pháp-Việt, ta sẽ tìm ra “ma” = “của tôi” (tính từ sở hữu), “ne voient jamais” = “không hề thấy” (động từ voir và ne. . . jamais). Và trong câu tiếng Pháp, “ma” có số thứ tự 2 nên “của tôi” sẽ có số thứ tự là 2. Tương tự “ne voient jamais” có số thứ tự 5 nên cụm từ “không hề thấy” sẽ được gán thứ tự là 5. Tuy nhiên, trong trường hợp một từ tiếng Việt có nhiều nhãn trong nhiều phân đoạn ngữ tiếng Pháp, ta cần khử nhập nhằng chúng bằng cách xét vùng biên là các nhãn thứ tự của các từ liền kề. Cuối cùng, các từ tiếng Việt có cùng nhãn thứ tự trong câu sẽ được nhóm lại thành các phân đoạn ngữ. Hình 3. Ví dụ minh họa kết quả mong muốn rút trích các cặp phân đoạn ngữ song ngữ Pháp-Việt 3.2. Mô hình hệ thống dịch máy thống kê kết hợp thông tin phân đoạn ngữ Ta có mô hình hệ thống dịch máy thống kê kết hợp thông tin phân đoạn ngữ tổng hợp như sau. Sau giai đoạn xây dựng tập hợp các cặp phân đoạn ngữ song ngữ Pháp-Việt, ta thực hiện việc gióng hàng từ cho các cặp phân đoạn ngữ này rồi tiến hành huấn luyện, xây dựng mô hình dịch (translationmodel) và mô hình ngôn ngữ (languagemodel) dựa trên tập ngữ liệu song ngữ trên. Trong hệ thống dịch máy thống kê, mô hình dịch máy thống kê dựa trên ngữ được xây dựng trên việc huấn luyện các cặp câu song ngữ để tạo nên mô hình dịch và dữ liệu đơn ngữ để tạo nên mô hình ngôn ngữ. Trong quá trình huấn luyện, các cặp câu song ngữ sẽ được gióng hàng ở cấp độ từ trước tiên và trong bộ giải mã (decoder), kết quả dịch sẽ được kết hợp từ hai mô hình dịch và mô hình ngôn ngữ. Ở đây, ta tích hợp các thông tin phân đoạn ngữ Pháp-Việt vào quá trình huấn luyện mô hình dịch. 364 LÊ NGỌC TẤN, LÊ NGỌC TIẾN, ĐINH ĐIỀN 4. KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1. Ngữ liệu và công cụ Kho ngữ liệu song ngữ thử nghiệm bao gồm 10.000 cặp câu song ngữ Pháp-Việt được tổng hợp từ các sách giáo khoa đàm thoại tiếng Pháp và từ điển song ngữ Pháp-Việt với hơn 70.000 Hình 4a. Mô hình hệ thống dịch máy thống kê Pháp-Việt kết hợp gióng hàng phân đoạn ngữ Hình 4b. Mô hình hệ thống dịch máy thống kê Pháp-Việt kết hợp gióng hàng phân đoạn ngữ DỊCH MÁY THỐNG KÊ PHÁP-VIỆT KẾT HỢP THÔNG TIN 365 mục từ. Ngữ liệu song ngữ gồm 10.000 cặp câu được chuẩn hóa theo các tiêu chí sau đây: - Đồng nhất về mặt nội dung và về mặt hình thức: mỗi câu trên một dòng duy nhất và kết thúc bằng dấu câu rõ ràng. - Đều được kiểm lỗi chỉnh tả, được loại bỏ các câu trùng nhau. - Các câu và các phân đoạn ngữ có độ dài từ 1-20 từ. Công cụ gán nhãn từ loại và gán nhãn phân đoạn ngữ cho tiếng Pháp là công cụ SEM. Các môđun dịch trong bài báo này được xây dựng bằng cách áp dụng bộ dịch máy thống kê Moses (Koehn and al., 2007) [15] với các tham số cài đặt mặc định. Công cụ Giza++ được sử dụng để gióng hàng từ, và thuật toán “grow-diag-final-and” được chọn. Công cụ huấn luyện mô hình ngôn ngữ là SRILM và công cụ huấn luyện mô hình dịch là hệ thống dịch dựa trên ngữ. Chia tập ngữ liệu thành ba tập: tập huấn luyện (training set), tập phát triển (developing set) và tập đánh giá(testing set). Trong đó, sử dụng 90% các cặp câu song ngữ làm tập huấn luyện, 5% cho tập phát triển và 5% còn lại cho tập đánh giá. 4.2. Kết quả của hệ thống Các thử nghiệm sau để đánh giá một cách thủ công chất lượng của công cụ gióng hàng phân đoạn ngữ cho cặp câu Pháp-Việt của bài báo đề xuất bằng cách tính toán độ chính xác, độ bao phủ, hệ số cân bằng và nhờ chuyên gia ngôn ngữ. Mô hình 1. (Baseline) Hệ thống dịch máy thống kê cơ sở không dùng thêm tri thức ngôn ngữ, chỉ được tách tokens, tách khoảng trắng. Mô hình 2. Hệ thống dịch máy thống kê chỉ chứa duy nhất các cặp phân đoạn ngữ, mỗi cặp phân đoạn ngữ Pháp-Việt được coi như một cặp câu song ngữ. Ngữ liệu đầu vào cho mô hình dịch là các cặp phân đoạn ngữ này. Tiếp đến chúng được gióng hàng từ bằng công cụ Giza++. Sau đó chúng được huấn luyện và rút trích thành bảng chuyển ngữ (phrase table). Mô hình 3. Hệ thống dịch máy thống kê tích hợp thêm các cặp phân đoạn ngữ trong mô hình cơ sở, có nghĩa là gộp lại tất cả cặp phân đoạn ngữ Pháp-Việt và các câu song ngữ cơ sở lại thành một tập đồng nhất. Như vậy, tập ngữ liệu đầu vào bao gồm hai phần. Phần thứ nhất là các câu song ngữ cơ sở và phần thứ hai là các cặp phân đoạn ngữ đã được gióng hàng. Tiếp đến kho ngữ liệu này sẽ được gióng hàng ở cấp độ từ với công cụ Giza++. Tương tự mô hình 2, sau đó chúng được huấn luyện và rút trích thành bảng chuyển ngữ. Bảng 1. Kết quả thực nghiệm dịch máy Pháp-Việt kết hợp các mô hình MÔ HÌNH BLEU NIST TER Mô hình 1 24.39% 3.224 69.29% Mô hình 2 23.57% 2.689 74.19% Mô hình 3 25.76% 3.188 68.48% Nhận xét: Theo thống kê, tỉ lệ về số lượng từ chính tả (tương đương với tiếng của tiếng Việt hay từ của tiếng Anh) trong văn bản giữa ngôn ngữ Anh-Việt là 1:1,55. Có nghĩa là mỗi từ tiếng Anh thường được dịch thành 1,55 tiếng của tiếng Việt. Và đối với cặp ngôn ngữ Pháp-Việt, [9] đã thống kê tỉ lệ của số từ chính tả Pháp-Việt là 0,8:1,3 . Do đó, trong mô hình 366 LÊ NGỌC TẤN, LÊ NGỌC TIẾN, ĐINH ĐIỀN 2, ta chỉ giữ lại các cặp câu song ngữ mà tỉ lệ độ dài nằm trong ngưỡng α = [0, 8 − 1, 3] và nhận thấy rằng khi loại bỏ các cặp câu Pháp-Việt không thỏa điều kiện trên, chất lượng dịch bị giảm xuống. Với kết quả thực nghiệm trên cho thấy, hướng tiếp cận kết hợp thông tin phân đoạn ngữ trong dịch máy thống kê Pháp-Việt đã đạt hiệu quả cao, đặc biệt với mô hình 3 thì điểm BLEU tăng hơn gần 2 điểm so với mô hình cơ sở. Điểm BLEU của mô hình 3 đạt kết quả cao nhất với giá trị 25,76%. Phân tích ảnh hưởng của bộ phân đoạn đối với độ chính xác của dịch máy: Ưu điểm: nếu bộ phân đoạn ngữ được xử lý tốt sẽ làm giảm tỷ lệ sai trong gióng hàng từ hay nói một cách khác, điều đó sẽ làm tăng độ chính xác của dịch máy. Nhược điểm: nếu bộ phân đoạn ngữ chứa quá nhiều phân đoạn ngữ nhỏ, độ bao phủ cao, thì điều đó sẽ làm tăng sự nhập nhằng trong việc chọn lựa các từ hay ngữ chính xác trong một số trường hợp trong hệ thống dịch máy. Phân tích lỗi: 1) Lỗi xác định chunk trong câu tiếng Pháp: Các ngữ trong câu tiếng Pháp Các ngữ trong câu tiếng Việt 6 | le fils 6 | cậu con_ trai đã 6 | a hérité 6 | thừa_ hưởng 6 | de toute la 6 | tất_ cả 6 | fortune 6 | tài_ sản 6 | à la mort de 6 | sau cái chết của 6 | ses parents 6 | bố_ mẹ mình Đây là lỗi của tiếng Pháp khi xác định ngữ (chunk). Điều đó kéo theo lỗi xác định ngữ sai trong câu tiếng Việt. Kết quả mong muốn sau khi xác định các ngữ trong câu tiếng Pháp như Hình 5. Biểu đồ so sánh kết quả các mô hình dịch thống kê Pháp-Việt DỊCH MÁY THỐNG KÊ PHÁP-VIỆT KẾT HỢP THÔNG TIN 367 sau: Le fils | a hérité | de toute la fortune | à la mort de | ses parents. 2) Lỗi trong dịch máy: Câu cần dịch: Nguyen Xuan Ly, chef du département de police de l’environnement, a déclaré qu’il s’agissait d’un nouveau type de crime dont les importateurs ont déclaré à la douane que ce sont des matériaux pour la production, mais ils sont en fait des déchets toxiques. Cơ sở: Nguyễn Xuân Lý, người đứng đầu của Cục Cảnh sát môi trường, nói rằng điều này là một loại mới của crime, trong đó các nhà nhập khẩu tuyên bố tại hải quan mà là những tài liệu cho sản xuất, nhưng họ đang ở trong thực tế chất thải độc hại. Mô hình: Nguyễn Xuân Lý, người đứng đầu của Cục Cảnh sát môi trường, nói rằng điều này là một loại tội phạm mới, trong đó các nhà nhập khẩu tuyên bố tại hải quan rằng đây là những tài liệu cho sản xuất, nhưng họ đang ở trong thực tế chất thải độc hại. 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Bài báo đề xuất một hướng tiếp cận mới bằng cách kết hợp phương pháp gióng hàng phân đoạn ngữ trong dịch máy thống kê cho cặp ngôn ngữ Pháp-Việt để giải quyết bài toán câu dài một cách hiệu quả. Kết quả thực nghiệm của mô hình hệ thống cho thấy độ đo điểm BLEU đã tăng hơn gần 2 điểm so với mô hình cơ sở. Ta nhận thấy rằng việc tích hợp thêm các tri thức ngôn ngữ đã có những đóng góp đáng kể trong việc nâng cao chất lượng dịch Pháp-Việt. Đây là những kết quả đáng quan tâm trong quá trình phát triển nghiên cứu đối với cặp ngôn ngữ Pháp-Việt ở Việt Nam nói riêng và trên thế giới nói chung. Hơn nữa, việc tăng độ chính xác của các gióng hàng phân đoạn ngữ sẽ giúp ích trong việc cải thiện đáng kể chất lượng dịch. Trong tương lai, nhóm tác giả sẽ tập trung vào giai đoạn cải tiến trật tự từ trong các phân đoạn ngữ để tăng độ chính xác của gióng hàng từ trong các cặp phân đoạn ngữ được rút trích bởi hệ thống. TÀI LIỆU THAM KHẢO [1] Philipp Koehn, Franz Josef Och and Daniel Marcu, Statistical phrase-based translation, Pro- ceedings of the HLT-NAACL 2003 Conference, Edmonton, Alberta, Canada, 2003 (127–133). [2] Eugene Charniak, Kevin Knight, and Kenji Yamada, Syntax-based language models for statis- tical machine translation, Proceedings of the Ninth Machine Translation Summit of the International Association for Machine Translation, New Orleans, Louisiana, September, 2003 (id=#21). [3] Isabelle Tellier, Denys Duchier, Iris Eshkol, Arnaud Courmet, Mathieu Martinet: Apprentis- sage automatique d’un chunker pour le franc¸ais, Actes de la conférence conjointe JEP-TALN- RECITAL 2012, volume 2: TALN, Grenoble, 4 au 8 Juin 2012 Copyright 2012 ATALA & AFCP (pp.431–438). [4] Anne Abeillé, Lionel Clément et Franc¸ois Toussenel: Building a treebank for french, A. ABEILLE, éditeur: Treebanks. Kluwer, Dordrecht, 2003 (165–187). [5] Sun Le, Jin Youbing, Du Lin, Sun Yufang, Word alignment of english-chinese bilingual corpus based on chunks, Proc. 2000 EMNLP and VLC, Hong Kong, 2000 (110–116). 368 LÊ NGỌC TẤN, LÊ NGỌC TIẾN, ĐINH ĐIỀN [6] Vinh Van Nguyen, Thai Phuong Nguyen, Akira Shimazu, and Minh Le Nguyen, Reordering phrase-based machine translation over chunks, IEEE International Conference on Research, Innovation and Vision for the Future - RIVF, Ho Chi Minh city, Vietnam, 2008 (114–119). [7] Francisco Nevado, Francisco Casacuberta, Enrique Vidal: Parallel corpora segmentation using anchor words, Proc. of the EAMT/EACL Workshop on MT and Other Language Tech- nology Tools, Budapest, Hungary, April, 2003 (12–17). [8] John Lafferty, Andrew McCallumand Fernando Pereira: Conditional random fields: Probabilistic models for segmenting and labeling sequence data. The Proceedings of International Con- ference on Machine Learning (ICML), Pittsburgh, Pennsylvania, USA, 2001 (282–289). [9] Thi-Ngoc-Diep Do ,Viet-Bac Le, Brigitte Bigi, Laurent Besacier, Eric Castelli: Mining a compa- rable text corpus for a Vietnamese - French statistical machine translation system Proceedings of the Fourth Workshop on Statistical Machine Translation, Athens, Greece, March, 30-31, 2009 (165–172). [10] LE Hong Phuong, “TAG – Tree Adjoining Grammar” PhD thesis, Loria, Nancy, France, 2009. [11] Nicolas BOFFO, “Formation de la temporalité en Vietnamien pour la traduction automatique”, PhD thesis in process, France-Vietnam, 2012. [12] NGUYEN Thi Minh Huyen, “Outils et ressources linguistiques pour l’alignement de textes mul- tilingues franc¸ais-vietnamien” PhD thesis, Nancy, France, 2006. [13] TRAN Tuan Duc, DYALANG, Université de Rouen, France: Système de recherche d’information medical par croisement de langue: Vietnamien–Franc¸ais–Anglais, GLOTTOPOL (8) (2006) 45– 52. [14] Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst, Moses: open source toolkit for statistical machine transla- tion, Annual Meeting of the Association for Computational Linguistics (ACL), demon- stration session, international conference, Prague, Czech Republic, 2007 (177–180). [15] Ngoc Tan LE, Ngoc Tien LE, Dien Dinh, An approach of chunk alignment for French-Vietnamese Bilingual corpora, The Proceedings of International Journal of Computer Science Issues (IJCSI), Vol. 10, Issue 2, Republic of Mauritius, 2013 (111–117). Ngày nhận bài 04 - 5 - 2013 Nhận lại sau sửa ngày 22 - 11 - 2013
File đính kèm:
- dich_may_thong_ke_phap_viet_ket_hop_thong_tin_giong_hang_pha.pdf