Cách tiếp cận dịch máy thống kê dựa trên cú pháp giải bài toán tự động khôi phục dấu cho văn bản
Tóm tắt Cách tiếp cận dịch máy thống kê dựa trên cú pháp giải bài toán tự động khôi phục dấu cho văn bản: ...c áp dụng quy tắc r vào một dạng câu 〈αXrβ, δXrϕ,∼, ω〉 sẽ là dạng câu 〈ααrβ, δδrϕ,∼ ∪ ∼r −{X}, ωωr〉 và ta viết 〈αXrβ, δXrϕ,∼, ω〉 r−→ 〈ααrβ, δδrϕ,∼ ∪ ∼r −{X}, ωωr〉. Một cách tổng quát nếu ta áp dụng liên tiếp như trên một số hữu hạn hoặc đếm được các quy tắc vào một dạng câu 〈α, β,∼, ω〉 để được m... rằng trong mọi quy tắc X → 〈α, β, ω〉 ∈ R, số các ký hiệu không kết thúc trong α và β là bằng nhau và chúng được tương ứng với nhau bằng một ánh xạ đơn điệu tăng theo vị trí tuyệt đối của chúng trong α và β. Do đó văn phạm G là một PSCFG. Đối với khẳng đinh thứ 2, ta chứng minh bằng quy nạp theo...8) như sau: - Đưa tất cả các quy tắc có bậc nhỏ hơn m từ G sang văn phạm Γ. - Với mỗi quy tắc có bậc m trong G X −→ 〈x1A1...Amxm+1, x1A1x2A2...Amxm+1, ω〉 ta đưa vào văn phạm mới 2 quy tắc: X −→ 〈Y x3A3...Amxm+1, Y x3A3...Amxm+1, 1〉 Y −→ 〈x1A1x2A2, x1A1x2A2, ω〉 với Y là ký hiệu kết thúc mới tr...
ơ sở của một hệ dịch máy thống kê dựa trên cú pháp; Mục 3 trình bày bài toán tự động khôi phục dấu văn bản cho các ngôn ngữ có sử dụng dấu trong hệ thống chính tả và đề xuất mô hình hệ thống tự động khôi phục dấu tổng quát bằng cách tiếp cận dịch máy thống kê dựa trên cú pháp; Mục 4 trình bày vấn đề cài đặt và thử nghiệm hệ thống trên các văn bản tiêng Việt và Mục 5 là một vài kết luận. 2. MÔ HÌNH HỆ DỊCH MÁY THỐNG KÊ DỰA TRÊN CÚ PHÁP Trong mục này sẽ đưa ra một số khái niệm cơ bản được sử dụng trong lý thuyết dịch máy thống kê dựa trên cú pháp và mô hình cơ sở của một bộ dịch. 2.1. Một số khái niệm cơ bản Định nghĩa 1. (PCFG) Văn phạm phi ngữ cảnh xác suất là một bộ 4 G = (N,S, T,R) trong đó N là tập các ký hiệu không kết thúc của văn phạm, S ∈ N là ký hiệu khới đầu, T là tập từ vựng (hay các ký hiệu kết thúc), R là tập các quy tắc sản xuất của văm phạm. Mỗi quy tắc sản xuất của R có dạng X → 〈α, ω〉 (4) trong đó X ∈ N là một ký hiệu không kết thúc, α ∈ (N ∪T )∗, ω là xác suất áp dụng của quy tắc và thỏa mãn với mỗi X ∑ α:X→〈α,ω〉∈R ω = 1. CÁCH TIẾP CẬN DỊCH MÁY THÔNG KÊ 41 Vế phải của (4) được gọi là một dạng câu. Định nghĩa 2. Giả sử r là một quy tắc sản xuất Xr → 〈αr, ωr〉. Khi đó kết quả của việc áp dụng quy tắc r vào một dạng câu 〈αXrβ, ω〉 sẽ là dạng câu 〈ααrβ, ωωr〉 và ta viết 〈αXrβ, ω〉 r−→ 〈ααrβ, ωωr〉. Một cách tổng quát nếu ta áp dụng liên tiếp như trên một số hữu hạn hoặc đếm được các quy tắc vào một dạng câu 〈α, ω〉 để được một dạng câu mới 〈α1, ω1〉, ta sẽ viết 〈α, ω〉 ∗−→ 〈α1, ω1〉. Định nghĩa 3. Một dạng câu được dẫn xuất từ dạng câu ban đầu 〈S, 1〉 và không chứa ký hiệu kết thúc được gọi là một câu được sinh ra bới văn phạm. Ngôn ngữ của văn phạm phi ngữ cảnh xác suất G, ký hiệu L(G), là tập tất cả các câu được sinh ra bởi văn phạm G L(G) = {〈ξ, w〉 ∈ T ∗ × [0, 1]|〈S, 1〉 ∗−→ 〈ξ, w〉}. Định nghĩa 4. Bậc của văn phạm phi ngữ xác suất là số cực đại các ký kiệu không kết thúc có thể có trong α của các quy tắc sản suất X → 〈α, ω〉. Định nghĩa 5. (PSCFG) Văn phạm phi ngữ cảnh đồng bộ xác suất là bộ 5 G = (N,S, Tσ, Tτ , R) trong đó N là tập các ký hiệu không kết thúc của văn phạm, S ∈ N là ký hiệu khởi đầu, Tσ và Tτ là các tập từ vựng (hay các ký hiệu kết thúc) của ngôn ngữ nguồn và ngôn ngữ đích tương ứng, R là tập các quy tắc sản xuất của văm phạm. Mỗi quy tắc sản xuất của R có dạng: X → 〈α, β,∼ ω〉 (5) trong đó X ∈ N là một ký hiệu không kết thúc, α ∈ (N ∪ Tσ)∗, β ∈ (N ∪ Tτ )∗, ∼ là một tương ứng 1-1 giữa các ký hiệu không kết thúc của α và β (quy ước sử dụng cùng một ký hiệu không kết thúc cho mỗi cặp ký hiệu không kết thúc tương ứng và như vậy ∼ sẽ là một tập các ký hiệu không kết thúc xuất hiện đồng thời trong cả α và β), ω là xác suất áp dụng của quy tắc và thỏa mãn với mỗi X ∑ α,β:X→〈α,β,∼ω〉∈R ω = 1. Các biểu diễn như vế phải của (5) được gọi là một dạng câu. Định nghĩa 6. Giả sử r là một quy tắc sản xuất Xr → 〈αr, δr,∼r ωr〉 và Xr ∈∼ . Khi đó kết quả của việc áp dụng quy tắc r vào một dạng câu 〈αXrβ, δXrϕ,∼, ω〉 sẽ là dạng câu 〈ααrβ, δδrϕ,∼ ∪ ∼r −{X}, ωωr〉 và ta viết 〈αXrβ, δXrϕ,∼, ω〉 r−→ 〈ααrβ, δδrϕ,∼ ∪ ∼r −{X}, ωωr〉. Một cách tổng quát nếu ta áp dụng liên tiếp như trên một số hữu hạn hoặc đếm được các quy tắc vào một dạng câu 〈α, β,∼, ω〉 để được một dạng câu mới 〈α1, β1,∼1, ω1〉, ta sẽ viết 〈α, β,∼, ω〉 ∗−→ 〈α1, β1,∼1, ω1〉. 42 NGUYỄN MINH HẢI, NGUYỄN MINH TUẤN Định nghĩa 7. Một dạng câu được dẫn xuất từ dạng câu ban đầu 〈S, S, {S}, 1〉 và không chứa ký hiệu không kết thúc (tương đương với ∼= φ) được gọi là một câu sinh ra bởi văn phạm. Ngôn ngữ của văn phạm phi ngữ cảnh đồng bộ xác suất G, ký hiệu L(G), là tập tất cả các câu được sinh ra bởi văn phạm G L(G) = {〈ξ, ξ, φ, w〉 ∈ T ∗σ × T ∗τ × φ× [0, 1] : 〈S, S, {S}, 1〉 ∗−→ 〈ξ, ξ, φ, w〉}. Định nghĩa 8. Bậc của mỗi quy tắc sản suất là lực lượng của ánh xạ trong quy tắc | ∼ |. Bậc của văn phạm phi ngữ cảnh đồng bộ xác suất là bậc cực đại của các quy tắc. Nói cách khác bậc của một ngôn ngữ PSCFG là k = max{| ∼ | : X −→ 〈α, β,∼, ω〉} trong đó | ∼ | chỉ lực lượng của tập ∼ . Định nghĩa 9. Hai ngôn ngữ G và G′ được gọi là tương đương khi và chỉ khi L(G) = L(G′). 2.2. Mô hình cơ sở hệ dịch máy thống kê dựa trên cú pháp Giả sử ta đã có một văn phạm phi ngữ cảnh đồng bộ xác suất G với ngôn ngữ L(G) như Định nghĩa trong 2.1. Khi đó, với mỗi xâu kết thúc f trên Tσ, bản dịch của nó theo văn phạm G là xâu các ký tự kết thúc e∗ trên Tτ sao cho 〈S, S, {S}, 1〉 ∗−→ 〈f, e∗, φ, w〉 và w đạt cực đại. Nói cách khác, bài toán dịch máy được hình thức hóa như sau e∗ = arg max e:〈S,S,{S},1〉 ∗−→〈f,e∗,φ,w〉 w. (6) Như vậy để có được một hệ thống dịch máy thống kê dựa trên cú pháp (hay để có thể giải bài toán (6)), chúng ta cần có một mô hình ngôn ngữ phi ngữ cảnh đồng bộ xác suất G và một bộ phân tích cú pháp PG tương ứng với văn phạm cho phép tính xác suất sinh ra mỗi câu của ngôn ngữ L(G). 3. MÔ HÌNH HỆ THỐNG KHÔI PHỤC DẤU VĂN BẢN BẰNG CÁCH TIẾP CẬN DỊCH MÁY THỐNG KÊ DỰA TRÊN CÚ PHÁP Ví dụ đưa ra trong phần giới thiệu cho thấy, việc khôi phục dấu cho mỗi câu trong văn bản không dấu phụ thuộc nhiều vào cấu trúc cú pháp của câu. Nếu ta có thể xác định được cấu trúc cú pháp của câu phù hợp với cấu trúc cú pháp của câu nguyên thủy, thì việc khôi phục dấu cho nó trở nên hiệu quả và chính xác hơn. Trước hết ta có nhận xét rằng nếu x ∈ T ∗ là một câu có dấu trong ngôn ngữ và x là biến thể không dấu của x thì thứ tự tuyệt đối của mỗi âm tiết/từ trong x trùng với thứ tự tuyệt đối của biến thể không dấu của nó trong x. Thứ hai, ta cũng có thể khẳng định rằng việc hình thành văn bản không dấu hoàn toàn tuân theo những ràng buộc cú pháp ẩn trong tư duy của người soạn thảo – những ràng buộc được người đó dùng khi soạn văn bản có dấu để diễn đạt nội dung cần trình bày. Từ những quan sát đó, ta đi đến đề xuất cách sử dụng các thông tin cú pháp chứa trong các văn bản có dấu để xác định cấu trúc cú pháp ẩn trong văn bản không dấu phục vụ việc giải quyết bài toán đặt ra. CÁCH TIẾP CẬN DỊCH MÁY THÔNG KÊ 43 3.1. Mô hình hệ thống Như đã được phân tích trong mục 2.2, việc xây dựng mô hình dịch máy thống kê dựa trên cú pháp để giải bài toán tự động khôi phục dấu cho văn bản đồng nghĩa với việc xây dựng một văn phạm PSCFG cho ngôn ngữ được quan tâm và một bộ phân tích cú pháp tương ứng với nó. Sau đây chúng ta lần lượt đưa ra giải pháp cho từng vấn đề. 3.1.1. Mô hình văn phạm ngữ phi ngữ cảnh đồng bộ xác suất Giả sử ta đã có một văn phạm phi ngữ cảnh xác suất G = (N,S, T,R) sinh ra các câu của một ngôn ngữ có sử dụng dấu trong hệ thống chính tả được quan tâm L(G). Ta sẽ xây dựng một văn phạm PSCFG G = (N,S, T , T,R) dựa trên văn phạm G như sau: - Tập các ký hiệu không kết thúc của G cũng chính là tập các ký hiệu không kết thúc N của G. - Ký hiệu khởi đầu của G cũng chính là ký hiệu khởi đầu S của G. - T là tập nhận được từ tập từ vựng T của G bằng cách bỏ đi dấu của các âm tiết/từ trong T. - Tập các quy tắc sản xuất R được hình thành như sau: Với mỗi quy tắc X −→ 〈x1A1x2A2...Anxn+1, ω〉 ∈ R trong đó xi ∈ T, i = 1, n+ 1, các xi có thể là các xâu rỗng ε, Ai ∈ N, i = 1, n ta đưa vào R quy tắc sản xuất sau X −→ 〈x1A1x2A2...Anxn+1, A1x2A2...Anxn+1, I, ω〉 (7) với xi ∈ T ∗ là biến thể không dấu tương ứng của xi và I = {A1, ..., An} là ánh xạ đơn điệu theo thứ tự giữa các cặp ký hiệu không kết thúc. Do mọi quy tắc đều chứa ánh xạ đơn điệu trên các ký hiệu kết thúc nên ta có thể bỏ qua mà không sợ bị lầm lẫn và từ nay về sau ta viết gọn các quy tắc của R thành X −→ 〈x1A1x2A2...Anxn+1, A1x2A2...Anxn+1, ω〉 (8) Định lý 1. G là một văn phạm phi ngữ cảnh đồng bộ xác suất. Hơn nữa thứ tự tuyệt đối của các âm tiết/từ và các biến thể không dấu của chúng trong mọi dạng câu (và câu của ngôn ngữ L(G)) được bảo tồn. Chứng minh: Với cách xây dựng tập các quy tắc sản xuất như (7), dễ thấy rằng trong mọi quy tắc X → 〈α, β, ω〉 ∈ R, số các ký hiệu không kết thúc trong α và β là bằng nhau và chúng được tương ứng với nhau bằng một ánh xạ đơn điệu tăng theo vị trí tuyệt đối của chúng trong α và β. Do đó văn phạm G là một PSCFG. Đối với khẳng đinh thứ 2, ta chứng minh bằng quy nạp theo số lượng các quy tắc dùng để sinh ra dạng câu hoặc câu. Xuất phát từ dạng câu 〈S, S, 1〉 và không áp dụng quy tắc nào, ta có 〈S, S, 1〉 φ−→ 〈S, S, 1〉 và khẳng định là đúng. Giả sử khẳng định đã đúng với tất cả các dãy suy diễn với độ dài m và dạng câu nhận được có biểu diễn αXβ, αXβ, ω tức là các âm tiết/từ và các biến thể không dấu của chúng trong các cặp (α, α), (β, β) có thứ tự tuyệt đối trong dạng câu là trùng nhau. 44 NGUYỄN MINH HẢI, NGUYỄN MINH TUẤN Nếu áp dụng quy tắc sản suất X −→ 〈x1A1...Anxn+1, x1A1x2A2...Anxn+1, ω′〉 vào dạng câu trên, ta nhận được dạng câu mới 〈αx1A1...Anxn+1β, αx1A1x2A2...Anxn+1β, ω, ω′〉. Trong dạng câu mới này, thứ tự tuyệt đối của âm tiết/từ cũng như các biến thể không dấu trong cặp (α, α) không thay đổi, thứ tự tuyệt đối của âm tiết/từ trong cặp (β, β) được tịnh tiến một khoảng bằng độ dài l(x1A1...Anxn+1) = l(x1A1x2A2...Anxn+1), thứ tự tuyết đối của các âm tiết/từ trong các cặp (xi, xi) là thứ tự tuyết đối của chúng trong quy tắc sản xuất được tịnh tiến một khoảng bằng l(α) + l(x1A1...xi−1Ai) với quy định l(x0A0) = 0. Từ đó ta suy ra tính đúng đắn của khẳng định. Định nghĩa 10. Văn phạm phi ngữ cảnh xác suất trái của văn phạm phi ngữ cảnh đồng bộ xác suất G = (N,S, T , T,R), ký hiệu Gt là văn phạm Gt = (N,S, T ,Rt) Rt là tập các quy tắc sản xuất được xây dựng như sau X −→ 〈α, β,∼, ω〉 ∈ R khi và chỉ khi X −→ 〈α, ω〉 ∈ Rt. (9) Nếu ta gán cùng một nhãn cho các quy tắc sản xuất liên quan đến nhau trong (7), (8), (9) và r là một chuỗi có thứ tự các nhãn, ta có định lý sau. Định lý 2. Cho xâu x ∈ T ∗ và x ∈ T ∗ là biến thể không dấu của x. Khi đó nếu 〈S, 1〉 r−→ G 〈x, ω〉 thì 〈S, S, 1〉 r−→ G 〈x, x, ω〉; 〈S, 1〉 r−→ Gt 〈x, ω〉. Hay nói cách khác x có cùng cấu trúc cú pháp với x. (các ký hiệu G,G và Gt bên dưới dấu dẫn xuất dùng để chỉ chuỗi dẫn xuất được thực hiện bằng các quy tắc sản xuất của văn phạm tương ứng). Chứng minh: dễ ràng suy ra trực tiếp từ mối liên quan của các quy tắc sản xuất được xây dựng cho các văn phạm G,G và Gt. Từ đó bài toán khôi phuc dấu cho ngôn ngữ L(G) có thể được phát biểu lại như sau: Giả sử x ∈ T ∗ là một biến thể không dấu của một câu chưa biết x ∈ T ∗ thuộc ngôn ngữ L(G). Khi đó bản gốc có dấu với độ tin cậy lớn nhất của x có thể coi là nghiệm cua bài toán: x∗ = arg max x:〈S,S,1〉 ∗−→ G 〈x,x,w〉 w. (10) 3.1.2. Bộ phân tích cú pháp Để làm bộ phân tích cú pháp cho các văn phạm PSCFG, người ta sử dụng biến thể mở rộng của thuật toán CKY – thuật toán phân tích cú pháp bottom-up sử dụng phương pháp quy hoạch động với độ phức tập tính toán của các thuật toán là hàm mũ theo bậc của văn phạm cũng như lực lượng của tập các quy tắc sản xuất [1]. Để có thể tăng hiệu quả cho thuật CÁCH TIẾP CẬN DỊCH MÁY THÔNG KÊ 45 toán, người ta thường tìm cách biến đổi văn phạm ban đầu thành một văn phạm tương đương ở dạng chuẩn Chomsky – dạng chuẩn mà các xâu trong vế phải của các quy tắc sản xuất chứa tối đa 2 ký hiệu không kết thúc (dạng nhị phân). Tuy nhiên, không phải mọi văn phạm PSCFG đều có thể đưa được về dạng chuẩn Chomsky. Định lý 3. Văn phạm G với các quy tắc sản xuất có dạng (8) có thể đưa được về dạng chuẩn Chomsky tương đương bằng một thủ tục có thời gian tuyến tính. Chứng minh: Quá trình nhị phân hóa là quá trình tách các quy tắc sản xuất thành một tập các quy tắc sản xuất tương đương, trong đó mỗi quy tắc nhận được có không quá 2 ký hiệu không kết thúc. Giả sử ta có quy tắc: X −→ 〈x1A1...Amxm+1, x1A1x2A2...Amxm+1, ω〉 ta sẽ biến đổi quy tắc đó thành 2 quy tắc: X −→ 〈Y x3A3...Amxm+1, Y x3A3...Amxm+1, 1〉 (11) Y −→ 〈x1A1x2A2, x1A1x2A2, ω〉 (12) với Y là một ký hiệu không kết thúc bổ xung. Áp dụng phương pháp trên một cách đệ quy vào mọi quy tắc sản xuất của G để nhận được một tập các quy tắc sản xuất mới ở dạng nhị phân. Thay tập quy tắc sản xuất trong G bằng tập các quy tắc mới để tạo ra văn phạm mới G. Do cách xây G nên quá trình trên là thực hiện được và sau nhiều nhất k − 1 bước, ta có thể biến đổi mỗi quy tắc về các quy tắc dạng nhị phân với k là bậc của văn phạm. Và như vây thời gian biến đổi G về dạng chuẩn Chomsky G là tuyến tính với số lượng quy tắc ban đầu của văn phạm. Để chứng minh L(G) = L(G) ta sẽ quy nạp theo bậc k của văn phạm G. Với k = 2, ta có G ≡ G. Do đó khẳng định là đúng. Giả sử khẳng định đã đúng với mọi văn phạm Γ có bậc k〈m với các quy tắc sản xuất dạng (8). Ta sẽ chứng minh khẳng định cũng đúng với các văn phạm có bậc m. Giả sử G là văn phạm bậc m có các quy tắc dạng (8). Ta thực hiện xây dựng một văn phạm Γ bậc m− 1 cũng có các quy tắc dạng (8) như sau: - Đưa tất cả các quy tắc có bậc nhỏ hơn m từ G sang văn phạm Γ. - Với mỗi quy tắc có bậc m trong G X −→ 〈x1A1...Amxm+1, x1A1x2A2...Amxm+1, ω〉 ta đưa vào văn phạm mới 2 quy tắc: X −→ 〈Y x3A3...Amxm+1, Y x3A3...Amxm+1, 1〉 Y −→ 〈x1A1x2A2, x1A1x2A2, ω〉 với Y là ký hiệu kết thúc mới trong văn phạm Γ. Như vậy Γ có bậc m− 1. Giả sử r = (r1, ..., rt) là một dãy các quy tắc sản xuất trong G để sinh ra một câu thuộc L(G). Khi đó có 2 trường hợp xảy ra: - Tất cả các quy tắc trong r đều có bậc nhỏ hơn m. Trong trương hợp này dãy các quy tắc sản xuất tương ứng trong Γ cũng sinh ra câu như vậy trong L(Γ). 46 NGUYỄN MINH HẢI, NGUYỄN MINH TUẤN - Trong dãy r có quy tắc sản xuất nào đó có bậc m. Trong trường hợp này ta sẽ lập một dãy các quy tắc sản xuất trong Γ bằng cách tại mỗi vị trí của r chứa quy tắc sản xuất bậc m ta thay quy tắc đó bằng 2 quy tắc tương ứng theo (11) và (12). Rõ ràng dãy quy tắc sản xuất nhận được chỉ chứa các quy tắc của Γ đồng thời dãy quy tắc đó sinh ra câu đang xét trong L(Γ).. Từ đây ta có L(Γ) ⊆ L(Γ). Ngược lại giả sử r là một dãy các quy tắc sản xuất trong (Γ) sinh ra một câu trong L(Γ). Cũng có 2 trường hợp xảy ra: - Trong các quy tắc của r không có quy tắc nào chứa các ký hiệu không kết thúc mới so với G. Khi đó dãy quy tắc tương ứng trong G cũng sinh ra câu đang xét trong G. - Trong các quy tắc của r có quy tắc chứa ký hiệu không kết thúc mới Y nào đó. Do các tạo quy tắc sản xuất của (Γ), ký hiệu không kết thúc này xuất hiện chỉ trong 1 cặp quy tắc dạng (11) và (12). Vì dãy quy tắc sản xuất sinh ta câu của ngôn ngữ nên cặp đó phải đồng thời nằm trong dãy r. Thay cặp quy tắc này bằng quy tắc sinh ra chúng từ G để nhận được dãy quy tắc mới. Dễ ràng chỉ ra dãy quy tắc mới cũng sinh ra câu đang xét trong G. Nói cách khác L(Γ) ⊆ L(Γ). Từ đó ta có L(Γ) = L(Γ). Định lý được chứng minh. Định lý 3 cho thấy rằng ta có thể dùng biến thể CKY cho PSCFG làm bộ phân tích cú pháp trong mô hình của chúng ta sau khi đã nhị phân hóa G để nhận được văn phạm G. Khi đó độ phức tạp của thuật toán CKY là O(n3) với n là độ dài của xâu đầu vào x. 3.2. Phương pháp huấn luyện mô hình Trong Mục 3.1, đã giả sử có một văn phạm phi ngữ cảnh xác suất G = (N,S, T,R) sinh ra các câu của một ngôn ngữ L(G). Để hoàn thiện mô hình, ta sử dụng phương pháp học không giám sát dựa trên gióng hàng (Alignment-based learning - ABL) của Menno M. van Zaanen [2] để xây dựng văn phạm phi ngữ cảnh xác suất G từ thông tin đầu vào là tập các câu phẳng (plain sentences) của ngôn ngữ có sử dụng dấu trong hệ thống chính tả mà ta quan tâm. Do khuôn khổ hạn chế của bài báo, nên không trình bày chi tiết về phương pháp ABL. Độc giả quan tâm có thể tham khảo [2]. Dựa trên văn phạm phi ngữ cảnh xác suất nhận được G, chúng ta tiến hành thủ tục xây dựng văn phạm phi ngữ cảnh đồng bộ xác suất bậc 2 G như đề xuất Mục 3.1. 4. CÀI ĐẶT VÀ THỬ NGHIỆM 4.1. Cài đặt Để cài đặt hệ thống, ta mở rộng gói phần mềm nguồn mở ABL4J của tác giả [2] bằng việc bổ xung thủ tục sinh văn phạm phi ngữ cảnh đồng bộ xác suất như trong mục 3.1.1 và thủ tục biến đổi về dạng chuẩn Chomsky như trong mục 3.1.2. Modul này sinh ra văn phạm phi ngữ cảnh đồng bộ xác suất bậc 2 G cho mô hình từ tập ngữ liệu đầu vào gồm các câu có dấu của ngôn ngữ quan tâm. Modul hoạt động độc lập và có thể áp dụng cho các ngôn ngữ khác nhau để có được các văn phạm PSCFG ở dạng chuẩn Chomsky tương ứng. Phiên bản xác suất của bộ phân tích cú pháp CKY nhận G làm tham số. Thông qua bộ phân tích cú pháp này, một văn bản không dấu đầu vào của ngôn ngữ quan tâm sẽ được tự CÁCH TIẾP CẬN DỊCH MÁY THÔNG KÊ 47 động khôi phục dấu. 4.2. Thu thập dữ liệu và thử nghiệm Để đánh giá hiệu quả của phương pháp, ta lựa chọn khôi phục dấu cho tiếng Việt, một ngôn ngữ sử dụng tập dấu chính tả khá phong phú. Ngữ liệu được thu thập gồm 450 bài báo thuộc các chủ đề khác nhau trên các trang báo điện tử như Dân trí, Vietnamnet, Vnexpress... Ngữ liệu này được tiền xử lý như biến chữ cái viết hoa thành chữ cái viết thường, tách câu theo dấu chấm câu, loại bỏ các câu trùng nhau... để nhận được một tập ngữ liệu mới chứa 14558 câu tiếng Việt và đưa vào để huấn luyện mô hình. Với mô hình nhận được, ta tiến hành việc thử nghiệm như sau: Thu thập một số văn bản tiếng Việt mới và dùng tool của Unikey để loại bỏ dấu. Sau đó đưa các văn bản không dấu vào hệ thống để thực hiện việc khôi phục dấu theo từng câu (tự động tách câu theo dấu chấm câu). Văn bản khôi phục dấu được đối sánh với văn bản gốc để đánh giá mức độ chính xác của phương pháp bằng tỷ lệ của số âm tiết/từ giống nhau trong hai văn bản chia cho số lượng âm tiết/từ có trong văn bản. Kết quả cho thấy độ chính xác của phương pháp giao động quanh tỷ lệ 98%. 5. KẾT LUẬN Trong bài này, việc khôi phục dấu cho văn bản được hình thức hóa toán học một cách chặt chẽ bằng một mô hình dich máy thông kê dưa trên cú pháp. Kết quả thử nghiệm cho thấy việc sử dụng thông tin cú pháp trong bài toán tự động khôi phục dấu cho văn bản giúp nâng cao đáng kể độ chính xác của kết quả. Tuy nhiên trong quá trình thử nghiệm cũng xuất hiện một số trường hợp xâu đầu vào không thể nhận biết được bởi văn phạm do hệ thống sinh ra từ tập ngữ liệu huấn luyện vì trong xâu xuất hiện các âm tiết/từ mới (OOV). Trước mắt trong những trường hợp này chúng tôi chọn giải pháp chép lại toàn bộ xâu vào văn bản kết quả. Trong tương lai có thể khắc phục hiện tượng đó bằng sự kết hợp với phương pháp khôi phục dấu ở mức ký tự. Hệ thống có tính độc lập ngôn ngữ cao nên hoàn toàn có thể áp dụng cho các ngôn ngữ có sử dụng dấu khác. TÀI LIỆU THAM KHẢO [1] Philipp Koehn, “Statistical Machine Translation,” University of Edinburgh, 2007 [2] Menno M. van Zaanen, “Boostrapping Structure into Language: Alignment-Based Learning,” Ph.D. thesis, University of Leeds, 2001. [3] Kiem-Hieu Nguyen et al., Diacritics restoration in vietnamese: letter based vs. syllable based model. PRICAI’10 Proceedings of the 11th Pacific Rim International Conference on Trends in Artificial Intelligence, Springer-Verlag Berlin, Heidenberg, 2010 (631–636). [4] Guy De Pauw et al., Automatic Diacritic Restoration for Resource-Scarce Languages, In V. Matousek and P. Mautner (Eds.): TSD 2007, LNAI 4629, Springer Verlag Berlin, Heidenberg, 2007 (170–179). [5] J. A. Mahar, G. Q. Memon, and H. Shaikh, Sindhi diacritics restoration by letter level learning approach, Sindh Univ. Res. Jour. (Sci. Ser.) 43 (2) (2011) 119–126. 48 NGUYỄN MINH HẢI, NGUYỄN MINH TUẤN [6] John Cocks and Te Taka Keegan, A word-based approach for diacritic restoration in Maori, Pro- ceedings of Australasian Language Technology Association Workshop, Canberra, Australia, 2011 (126–130). [7] Tuan Anh Luu et al., A pointwise approach for Vietnamese diacritics restoration, International Conference on Asian Language Processing (IALP), Hanoi, Vietnam, 2012. [8] Tim Schlippe et al., Diacritization as a machine translation problem and as a sequence labeling problem, 2007 www.amtaweb.org/papers/3.05_Schlippe.pdf [9] Rada F. Mihalcea, Diacritics Restoration: Learning from Letters versus Learning from Words. CICLing, volume 2276 of Lecture Notes in Computer Science, Springer, 2002 ( 339–348). Ngày nhận bài 30 - 3 - 2013 Nhận lại sau sửa ngày 28 - 02 - 2014
File đính kèm:
- cach_tiep_can_dich_may_thong_ke_dua_tren_cu_phap_giai_bai_to.pdf