Cách tiếp cận dịch máy thống kê dựa trên cú pháp giải bài toán tự động khôi phục dấu cho văn bản

Tóm tắt Cách tiếp cận dịch máy thống kê dựa trên cú pháp giải bài toán tự động khôi phục dấu cho văn bản: ...c áp dụng quy tắc r vào một dạng câu 〈αXrβ, δXrϕ,∼, ω〉 sẽ là dạng câu 〈ααrβ, δδrϕ,∼ ∪ ∼r −{X}, ωωr〉 và ta viết 〈αXrβ, δXrϕ,∼, ω〉 r−→ 〈ααrβ, δδrϕ,∼ ∪ ∼r −{X}, ωωr〉. Một cách tổng quát nếu ta áp dụng liên tiếp như trên một số hữu hạn hoặc đếm được các quy tắc vào một dạng câu 〈α, β,∼, ω〉 để được m... rằng trong mọi quy tắc X → 〈α, β, ω〉 ∈ R, số các ký hiệu không kết thúc trong α và β là bằng nhau và chúng được tương ứng với nhau bằng một ánh xạ đơn điệu tăng theo vị trí tuyệt đối của chúng trong α và β. Do đó văn phạm G là một PSCFG. Đối với khẳng đinh thứ 2, ta chứng minh bằng quy nạp theo...8) như sau: - Đưa tất cả các quy tắc có bậc nhỏ hơn m từ G sang văn phạm Γ. - Với mỗi quy tắc có bậc m trong G X −→ 〈x1A1...Amxm+1, x1A1x2A2...Amxm+1, ω〉 ta đưa vào văn phạm mới 2 quy tắc: X −→ 〈Y x3A3...Amxm+1, Y x3A3...Amxm+1, 1〉 Y −→ 〈x1A1x2A2, x1A1x2A2, ω〉 với Y là ký hiệu kết thúc mới tr...

pdf10 trang | Chia sẻ: havih72 | Lượt xem: 267 | Lượt tải: 0download
Nội dung tài liệu Cách tiếp cận dịch máy thống kê dựa trên cú pháp giải bài toán tự động khôi phục dấu cho văn bản, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
ơ sở của một hệ dịch máy thống kê dựa trên cú pháp; Mục 3 trình bày bài toán tự
động khôi phục dấu văn bản cho các ngôn ngữ có sử dụng dấu trong hệ thống chính tả và đề
xuất mô hình hệ thống tự động khôi phục dấu tổng quát bằng cách tiếp cận dịch máy thống
kê dựa trên cú pháp; Mục 4 trình bày vấn đề cài đặt và thử nghiệm hệ thống trên các văn
bản tiêng Việt và Mục 5 là một vài kết luận.
2. MÔ HÌNH HỆ DỊCH MÁY THỐNG KÊ DỰA TRÊN CÚ PHÁP
Trong mục này sẽ đưa ra một số khái niệm cơ bản được sử dụng trong lý thuyết dịch máy
thống kê dựa trên cú pháp và mô hình cơ sở của một bộ dịch.
2.1. Một số khái niệm cơ bản
Định nghĩa 1. (PCFG) Văn phạm phi ngữ cảnh xác suất là một bộ 4
G = (N,S, T,R)
trong đó N là tập các ký hiệu không kết thúc của văn phạm, S ∈ N là ký hiệu khới đầu, T
là tập từ vựng (hay các ký hiệu kết thúc), R là tập các quy tắc sản xuất của văm phạm.
Mỗi quy tắc sản xuất của R có dạng
X → 〈α, ω〉 (4)
trong đó X ∈ N là một ký hiệu không kết thúc, α ∈ (N ∪T )∗, ω là xác suất áp dụng của quy
tắc và thỏa mãn với mỗi X ∑
α:X→〈α,ω〉∈R
ω = 1.
CÁCH TIẾP CẬN DỊCH MÁY THÔNG KÊ 41
Vế phải của (4) được gọi là một dạng câu.
Định nghĩa 2. Giả sử r là một quy tắc sản xuất Xr → 〈αr, ωr〉. Khi đó kết quả của việc áp
dụng quy tắc r vào một dạng câu 〈αXrβ, ω〉 sẽ là dạng câu 〈ααrβ, ωωr〉 và ta viết
〈αXrβ, ω〉 r−→ 〈ααrβ, ωωr〉.
Một cách tổng quát nếu ta áp dụng liên tiếp như trên một số hữu hạn hoặc đếm được các quy
tắc vào một dạng câu 〈α, ω〉 để được một dạng câu mới 〈α1, ω1〉, ta sẽ viết
〈α, ω〉 ∗−→ 〈α1, ω1〉.
Định nghĩa 3. Một dạng câu được dẫn xuất từ dạng câu ban đầu 〈S, 1〉 và không chứa ký
hiệu kết thúc được gọi là một câu được sinh ra bới văn phạm. Ngôn ngữ của văn phạm phi
ngữ cảnh xác suất G, ký hiệu L(G), là tập tất cả các câu được sinh ra bởi văn phạm G
L(G) = {〈ξ, w〉 ∈ T ∗ × [0, 1]|〈S, 1〉 ∗−→ 〈ξ, w〉}.
Định nghĩa 4. Bậc của văn phạm phi ngữ xác suất là số cực đại các ký kiệu không kết thúc
có thể có trong α của các quy tắc sản suất X → 〈α, ω〉.
Định nghĩa 5. (PSCFG) Văn phạm phi ngữ cảnh đồng bộ xác suất là bộ 5
G = (N,S, Tσ, Tτ , R)
trong đó N là tập các ký hiệu không kết thúc của văn phạm, S ∈ N là ký hiệu khởi đầu, Tσ
và Tτ là các tập từ vựng (hay các ký hiệu kết thúc) của ngôn ngữ nguồn và ngôn ngữ đích
tương ứng, R là tập các quy tắc sản xuất của văm phạm.
Mỗi quy tắc sản xuất của R có dạng:
X → 〈α, β,∼ ω〉 (5)
trong đó X ∈ N là một ký hiệu không kết thúc, α ∈ (N ∪ Tσ)∗, β ∈ (N ∪ Tτ )∗, ∼ là một
tương ứng 1-1 giữa các ký hiệu không kết thúc của α và β (quy ước sử dụng cùng một ký hiệu
không kết thúc cho mỗi cặp ký hiệu không kết thúc tương ứng và như vậy ∼ sẽ là một tập các
ký hiệu không kết thúc xuất hiện đồng thời trong cả α và β), ω là xác suất áp dụng của quy
tắc và thỏa mãn với mỗi X ∑
α,β:X→〈α,β,∼ω〉∈R
ω = 1.
Các biểu diễn như vế phải của (5) được gọi là một dạng câu.
Định nghĩa 6. Giả sử r là một quy tắc sản xuất Xr → 〈αr, δr,∼r ωr〉 và Xr ∈∼ . Khi
đó kết quả của việc áp dụng quy tắc r vào một dạng câu 〈αXrβ, δXrϕ,∼, ω〉 sẽ là dạng câu
〈ααrβ, δδrϕ,∼ ∪ ∼r −{X}, ωωr〉 và ta viết
〈αXrβ, δXrϕ,∼, ω〉 r−→ 〈ααrβ, δδrϕ,∼ ∪ ∼r −{X}, ωωr〉.
Một cách tổng quát nếu ta áp dụng liên tiếp như trên một số hữu hạn hoặc đếm được các
quy tắc vào một dạng câu 〈α, β,∼, ω〉 để được một dạng câu mới 〈α1, β1,∼1, ω1〉, ta sẽ viết
〈α, β,∼, ω〉 ∗−→ 〈α1, β1,∼1, ω1〉.
42 NGUYỄN MINH HẢI, NGUYỄN MINH TUẤN
Định nghĩa 7. Một dạng câu được dẫn xuất từ dạng câu ban đầu 〈S, S, {S}, 1〉 và không
chứa ký hiệu không kết thúc (tương đương với ∼= φ) được gọi là một câu sinh ra bởi văn
phạm. Ngôn ngữ của văn phạm phi ngữ cảnh đồng bộ xác suất G, ký hiệu L(G), là tập tất
cả các câu được sinh ra bởi văn phạm G
L(G) = {〈ξ, ξ, φ, w〉 ∈ T ∗σ × T ∗τ × φ× [0, 1] : 〈S, S, {S}, 1〉 ∗−→ 〈ξ, ξ, φ, w〉}.
Định nghĩa 8. Bậc của mỗi quy tắc sản suất là lực lượng của ánh xạ trong quy tắc | ∼ |.
Bậc của văn phạm phi ngữ cảnh đồng bộ xác suất là bậc cực đại của các quy tắc. Nói cách
khác bậc của một ngôn ngữ PSCFG là
k = max{| ∼ | : X −→ 〈α, β,∼, ω〉}
trong đó | ∼ | chỉ lực lượng của tập ∼ .
Định nghĩa 9. Hai ngôn ngữ G và G′ được gọi là tương đương khi và chỉ khi L(G) = L(G′).
2.2. Mô hình cơ sở hệ dịch máy thống kê dựa trên cú pháp
Giả sử ta đã có một văn phạm phi ngữ cảnh đồng bộ xác suất G với ngôn ngữ L(G) như
Định nghĩa trong 2.1. Khi đó, với mỗi xâu kết thúc f trên Tσ, bản dịch của nó theo văn phạm
G là xâu các ký tự kết thúc e∗ trên Tτ sao cho 〈S, S, {S}, 1〉 ∗−→ 〈f, e∗, φ, w〉 và w đạt cực
đại. Nói cách khác, bài toán dịch máy được hình thức hóa như sau
e∗ = arg max
e:〈S,S,{S},1〉 ∗−→〈f,e∗,φ,w〉
w. (6)
Như vậy để có được một hệ thống dịch máy thống kê dựa trên cú pháp (hay để có thể giải
bài toán (6)), chúng ta cần có một mô hình ngôn ngữ phi ngữ cảnh đồng bộ xác suất G và
một bộ phân tích cú pháp PG tương ứng với văn phạm cho phép tính xác suất sinh ra mỗi
câu của ngôn ngữ L(G).
3. MÔ HÌNH HỆ THỐNG KHÔI PHỤC DẤU VĂN BẢN BẰNG CÁCH
TIẾP CẬN DỊCH MÁY THỐNG KÊ DỰA TRÊN CÚ PHÁP
Ví dụ đưa ra trong phần giới thiệu cho thấy, việc khôi phục dấu cho mỗi câu trong văn
bản không dấu phụ thuộc nhiều vào cấu trúc cú pháp của câu. Nếu ta có thể xác định được
cấu trúc cú pháp của câu phù hợp với cấu trúc cú pháp của câu nguyên thủy, thì việc khôi
phục dấu cho nó trở nên hiệu quả và chính xác hơn.
Trước hết ta có nhận xét rằng nếu x ∈ T ∗ là một câu có dấu trong ngôn ngữ và x là biến
thể không dấu của x thì thứ tự tuyệt đối của mỗi âm tiết/từ trong x trùng với thứ tự tuyệt
đối của biến thể không dấu của nó trong x.
Thứ hai, ta cũng có thể khẳng định rằng việc hình thành văn bản không dấu hoàn toàn
tuân theo những ràng buộc cú pháp ẩn trong tư duy của người soạn thảo – những ràng buộc
được người đó dùng khi soạn văn bản có dấu để diễn đạt nội dung cần trình bày.
Từ những quan sát đó, ta đi đến đề xuất cách sử dụng các thông tin cú pháp chứa trong
các văn bản có dấu để xác định cấu trúc cú pháp ẩn trong văn bản không dấu phục vụ việc
giải quyết bài toán đặt ra.
CÁCH TIẾP CẬN DỊCH MÁY THÔNG KÊ 43
3.1. Mô hình hệ thống
Như đã được phân tích trong mục 2.2, việc xây dựng mô hình dịch máy thống kê dựa trên
cú pháp để giải bài toán tự động khôi phục dấu cho văn bản đồng nghĩa với việc xây dựng
một văn phạm PSCFG cho ngôn ngữ được quan tâm và một bộ phân tích cú pháp tương ứng
với nó. Sau đây chúng ta lần lượt đưa ra giải pháp cho từng vấn đề.
3.1.1. Mô hình văn phạm ngữ phi ngữ cảnh đồng bộ xác suất
Giả sử ta đã có một văn phạm phi ngữ cảnh xác suất G = (N,S, T,R) sinh ra các câu của
một ngôn ngữ có sử dụng dấu trong hệ thống chính tả được quan tâm L(G).
Ta sẽ xây dựng một văn phạm PSCFG G = (N,S, T , T,R) dựa trên văn phạm G như sau:
- Tập các ký hiệu không kết thúc của G cũng chính là tập các ký hiệu không kết thúc N của
G.
- Ký hiệu khởi đầu của G cũng chính là ký hiệu khởi đầu S của G.
- T là tập nhận được từ tập từ vựng T của G bằng cách bỏ đi dấu của các âm tiết/từ trong
T.
- Tập các quy tắc sản xuất R được hình thành như sau: Với mỗi quy tắc
X −→ 〈x1A1x2A2...Anxn+1, ω〉 ∈ R
trong đó xi ∈ T, i = 1, n+ 1, các xi có thể là các xâu rỗng ε, Ai ∈ N, i = 1, n ta đưa vào R
quy tắc sản xuất sau
X −→ 〈x1A1x2A2...Anxn+1, A1x2A2...Anxn+1, I, ω〉 (7)
với xi ∈ T ∗ là biến thể không dấu tương ứng của xi và I = {A1, ..., An} là ánh xạ đơn điệu
theo thứ tự giữa các cặp ký hiệu không kết thúc. Do mọi quy tắc đều chứa ánh xạ đơn điệu
trên các ký hiệu kết thúc nên ta có thể bỏ qua mà không sợ bị lầm lẫn và từ nay về sau ta
viết gọn các quy tắc của R thành
X −→ 〈x1A1x2A2...Anxn+1, A1x2A2...Anxn+1, ω〉 (8)
Định lý 1. G là một văn phạm phi ngữ cảnh đồng bộ xác suất. Hơn nữa thứ tự tuyệt đối
của các âm tiết/từ và các biến thể không dấu của chúng trong mọi dạng câu (và câu của
ngôn ngữ L(G)) được bảo tồn.
Chứng minh: Với cách xây dựng tập các quy tắc sản xuất như (7), dễ thấy rằng trong mọi
quy tắc X → 〈α, β, ω〉 ∈ R, số các ký hiệu không kết thúc trong α và β là bằng nhau và chúng
được tương ứng với nhau bằng một ánh xạ đơn điệu tăng theo vị trí tuyệt đối của chúng trong
α và β. Do đó văn phạm G là một PSCFG.
Đối với khẳng đinh thứ 2, ta chứng minh bằng quy nạp theo số lượng các quy tắc dùng
để sinh ra dạng câu hoặc câu. Xuất phát từ dạng câu 〈S, S, 1〉 và không áp dụng quy tắc nào,
ta có 〈S, S, 1〉 φ−→ 〈S, S, 1〉 và khẳng định là đúng.
Giả sử khẳng định đã đúng với tất cả các dãy suy diễn với độ dài m và dạng câu nhận
được có biểu diễn
αXβ, αXβ, ω
tức là các âm tiết/từ và các biến thể không dấu của chúng trong các cặp (α, α), (β, β) có thứ
tự tuyệt đối trong dạng câu là trùng nhau.
44 NGUYỄN MINH HẢI, NGUYỄN MINH TUẤN
Nếu áp dụng quy tắc sản suất
X −→ 〈x1A1...Anxn+1, x1A1x2A2...Anxn+1, ω′〉
vào dạng câu trên, ta nhận được dạng câu mới
〈αx1A1...Anxn+1β, αx1A1x2A2...Anxn+1β, ω, ω′〉.
Trong dạng câu mới này, thứ tự tuyệt đối của âm tiết/từ cũng như các biến thể không
dấu trong cặp (α, α) không thay đổi, thứ tự tuyệt đối của âm tiết/từ trong cặp (β, β) được
tịnh tiến một khoảng bằng độ dài l(x1A1...Anxn+1) = l(x1A1x2A2...Anxn+1), thứ tự tuyết
đối của các âm tiết/từ trong các cặp (xi, xi) là thứ tự tuyết đối của chúng trong quy tắc sản
xuất được tịnh tiến một khoảng bằng l(α) + l(x1A1...xi−1Ai) với quy định l(x0A0) = 0. Từ
đó ta suy ra tính đúng đắn của khẳng định.
Định nghĩa 10. Văn phạm phi ngữ cảnh xác suất trái của văn phạm phi ngữ cảnh đồng bộ
xác suất G = (N,S, T , T,R), ký hiệu Gt là văn phạm
Gt = (N,S, T ,Rt)
Rt là tập các quy tắc sản xuất được xây dựng như sau
X −→ 〈α, β,∼, ω〉 ∈ R khi và chỉ khi X −→ 〈α, ω〉 ∈ Rt. (9)
Nếu ta gán cùng một nhãn cho các quy tắc sản xuất liên quan đến nhau trong (7), (8),
(9) và r là một chuỗi có thứ tự các nhãn, ta có định lý sau.
Định lý 2. Cho xâu x ∈ T ∗ và x ∈ T ∗ là biến thể không dấu của x. Khi đó nếu 〈S, 1〉 r−→
G
〈x, ω〉 thì
〈S, S, 1〉 r−→
G
〈x, x, ω〉; 〈S, 1〉 r−→
Gt
〈x, ω〉.
Hay nói cách khác x có cùng cấu trúc cú pháp với x. (các ký hiệu G,G và Gt bên dưới dấu
dẫn xuất dùng để chỉ chuỗi dẫn xuất được thực hiện bằng các quy tắc sản xuất của văn phạm
tương ứng).
Chứng minh: dễ ràng suy ra trực tiếp từ mối liên quan của các quy tắc sản xuất được xây
dựng cho các văn phạm G,G và Gt.
Từ đó bài toán khôi phuc dấu cho ngôn ngữ L(G) có thể được phát biểu lại như sau:
Giả sử x ∈ T ∗ là một biến thể không dấu của một câu chưa biết x ∈ T ∗ thuộc ngôn ngữ
L(G). Khi đó bản gốc có dấu với độ tin cậy lớn nhất của x có thể coi là nghiệm cua bài toán:
x∗ = arg max
x:〈S,S,1〉 ∗−→
G
〈x,x,w〉
w. (10)
3.1.2. Bộ phân tích cú pháp
Để làm bộ phân tích cú pháp cho các văn phạm PSCFG, người ta sử dụng biến thể mở
rộng của thuật toán CKY – thuật toán phân tích cú pháp bottom-up sử dụng phương pháp
quy hoạch động với độ phức tập tính toán của các thuật toán là hàm mũ theo bậc của văn
phạm cũng như lực lượng của tập các quy tắc sản xuất [1]. Để có thể tăng hiệu quả cho thuật
CÁCH TIẾP CẬN DỊCH MÁY THÔNG KÊ 45
toán, người ta thường tìm cách biến đổi văn phạm ban đầu thành một văn phạm tương đương
ở dạng chuẩn Chomsky – dạng chuẩn mà các xâu trong vế phải của các quy tắc sản xuất
chứa tối đa 2 ký hiệu không kết thúc (dạng nhị phân). Tuy nhiên, không phải mọi văn phạm
PSCFG đều có thể đưa được về dạng chuẩn Chomsky.
Định lý 3. Văn phạm G với các quy tắc sản xuất có dạng (8) có thể đưa được về dạng chuẩn
Chomsky tương đương bằng một thủ tục có thời gian tuyến tính.
Chứng minh: Quá trình nhị phân hóa là quá trình tách các quy tắc sản xuất thành một tập
các quy tắc sản xuất tương đương, trong đó mỗi quy tắc nhận được có không quá 2 ký hiệu
không kết thúc.
Giả sử ta có quy tắc:
X −→ 〈x1A1...Amxm+1, x1A1x2A2...Amxm+1, ω〉
ta sẽ biến đổi quy tắc đó thành 2 quy tắc:
X −→ 〈Y x3A3...Amxm+1, Y x3A3...Amxm+1, 1〉 (11)
Y −→ 〈x1A1x2A2, x1A1x2A2, ω〉 (12)
với Y là một ký hiệu không kết thúc bổ xung.
Áp dụng phương pháp trên một cách đệ quy vào mọi quy tắc sản xuất của G để nhận
được một tập các quy tắc sản xuất mới ở dạng nhị phân. Thay tập quy tắc sản xuất trong G
bằng tập các quy tắc mới để tạo ra văn phạm mới G. Do cách xây G nên quá trình trên là
thực hiện được và sau nhiều nhất k − 1 bước, ta có thể biến đổi mỗi quy tắc về các quy tắc
dạng nhị phân với k là bậc của văn phạm. Và như vây thời gian biến đổi G về dạng chuẩn
Chomsky G là tuyến tính với số lượng quy tắc ban đầu của văn phạm.
Để chứng minh L(G) = L(G) ta sẽ quy nạp theo bậc k của văn phạm G.
Với k = 2, ta có G ≡ G. Do đó khẳng định là đúng.
Giả sử khẳng định đã đúng với mọi văn phạm Γ có bậc k〈m với các quy tắc sản xuất dạng
(8). Ta sẽ chứng minh khẳng định cũng đúng với các văn phạm có bậc m.
Giả sử G là văn phạm bậc m có các quy tắc dạng (8). Ta thực hiện xây dựng một văn
phạm Γ bậc m− 1 cũng có các quy tắc dạng (8) như sau:
- Đưa tất cả các quy tắc có bậc nhỏ hơn m từ G sang văn phạm Γ.
- Với mỗi quy tắc có bậc m trong G
X −→ 〈x1A1...Amxm+1, x1A1x2A2...Amxm+1, ω〉
ta đưa vào văn phạm mới 2 quy tắc:
X −→ 〈Y x3A3...Amxm+1, Y x3A3...Amxm+1, 1〉
Y −→ 〈x1A1x2A2, x1A1x2A2, ω〉
với Y là ký hiệu kết thúc mới trong văn phạm Γ. Như vậy Γ có bậc m− 1.
Giả sử r = (r1, ..., rt) là một dãy các quy tắc sản xuất trong G để sinh ra một câu thuộc
L(G). Khi đó có 2 trường hợp xảy ra:
- Tất cả các quy tắc trong r đều có bậc nhỏ hơn m. Trong trương hợp này dãy các quy
tắc sản xuất tương ứng trong Γ cũng sinh ra câu như vậy trong L(Γ).
46 NGUYỄN MINH HẢI, NGUYỄN MINH TUẤN
- Trong dãy r có quy tắc sản xuất nào đó có bậc m. Trong trường hợp này ta sẽ lập một
dãy các quy tắc sản xuất trong Γ bằng cách tại mỗi vị trí của r chứa quy tắc sản xuất bậc m
ta thay quy tắc đó bằng 2 quy tắc tương ứng theo (11) và (12). Rõ ràng dãy quy tắc sản xuất
nhận được chỉ chứa các quy tắc của Γ đồng thời dãy quy tắc đó sinh ra câu đang xét trong
L(Γ).. Từ đây ta có L(Γ) ⊆ L(Γ).
Ngược lại giả sử r là một dãy các quy tắc sản xuất trong (Γ) sinh ra một câu trong L(Γ).
Cũng có 2 trường hợp xảy ra:
- Trong các quy tắc của r không có quy tắc nào chứa các ký hiệu không kết thúc mới so
với G. Khi đó dãy quy tắc tương ứng trong G cũng sinh ra câu đang xét trong G.
- Trong các quy tắc của r có quy tắc chứa ký hiệu không kết thúc mới Y nào đó. Do các
tạo quy tắc sản xuất của (Γ), ký hiệu không kết thúc này xuất hiện chỉ trong 1 cặp quy tắc
dạng (11) và (12). Vì dãy quy tắc sản xuất sinh ta câu của ngôn ngữ nên cặp đó phải đồng
thời nằm trong dãy r. Thay cặp quy tắc này bằng quy tắc sinh ra chúng từ G để nhận được
dãy quy tắc mới. Dễ ràng chỉ ra dãy quy tắc mới cũng sinh ra câu đang xét trong G. Nói cách
khác L(Γ) ⊆ L(Γ).
Từ đó ta có L(Γ) = L(Γ). Định lý được chứng minh. 
Định lý 3 cho thấy rằng ta có thể dùng biến thể CKY cho PSCFG làm bộ phân tích cú
pháp trong mô hình của chúng ta sau khi đã nhị phân hóa G để nhận được văn phạm G. Khi
đó độ phức tạp của thuật toán CKY là O(n3) với n là độ dài của xâu đầu vào x.
3.2. Phương pháp huấn luyện mô hình
Trong Mục 3.1, đã giả sử có một văn phạm phi ngữ cảnh xác suất G = (N,S, T,R) sinh
ra các câu của một ngôn ngữ L(G).
Để hoàn thiện mô hình, ta sử dụng phương pháp học không giám sát dựa trên gióng hàng
(Alignment-based learning - ABL) của Menno M. van Zaanen [2] để xây dựng văn phạm phi
ngữ cảnh xác suất G từ thông tin đầu vào là tập các câu phẳng (plain sentences) của ngôn
ngữ có sử dụng dấu trong hệ thống chính tả mà ta quan tâm. Do khuôn khổ hạn chế của bài
báo, nên không trình bày chi tiết về phương pháp ABL. Độc giả quan tâm có thể tham khảo
[2].
Dựa trên văn phạm phi ngữ cảnh xác suất nhận được G, chúng ta tiến hành thủ tục xây
dựng văn phạm phi ngữ cảnh đồng bộ xác suất bậc 2 G như đề xuất Mục 3.1.
4. CÀI ĐẶT VÀ THỬ NGHIỆM
4.1. Cài đặt
Để cài đặt hệ thống, ta mở rộng gói phần mềm nguồn mở ABL4J của tác giả [2] bằng việc
bổ xung thủ tục sinh văn phạm phi ngữ cảnh đồng bộ xác suất như trong mục 3.1.1 và thủ
tục biến đổi về dạng chuẩn Chomsky như trong mục 3.1.2. Modul này sinh ra văn phạm phi
ngữ cảnh đồng bộ xác suất bậc 2 G cho mô hình từ tập ngữ liệu đầu vào gồm các câu có dấu
của ngôn ngữ quan tâm. Modul hoạt động độc lập và có thể áp dụng cho các ngôn ngữ khác
nhau để có được các văn phạm PSCFG ở dạng chuẩn Chomsky tương ứng.
Phiên bản xác suất của bộ phân tích cú pháp CKY nhận G làm tham số. Thông qua bộ
phân tích cú pháp này, một văn bản không dấu đầu vào của ngôn ngữ quan tâm sẽ được tự
CÁCH TIẾP CẬN DỊCH MÁY THÔNG KÊ 47
động khôi phục dấu.
4.2. Thu thập dữ liệu và thử nghiệm
Để đánh giá hiệu quả của phương pháp, ta lựa chọn khôi phục dấu cho tiếng Việt, một
ngôn ngữ sử dụng tập dấu chính tả khá phong phú. Ngữ liệu được thu thập gồm 450 bài báo
thuộc các chủ đề khác nhau trên các trang báo điện tử như Dân trí, Vietnamnet, Vnexpress...
Ngữ liệu này được tiền xử lý như biến chữ cái viết hoa thành chữ cái viết thường, tách câu
theo dấu chấm câu, loại bỏ các câu trùng nhau... để nhận được một tập ngữ liệu mới chứa
14558 câu tiếng Việt và đưa vào để huấn luyện mô hình.
Với mô hình nhận được, ta tiến hành việc thử nghiệm như sau: Thu thập một số văn bản
tiếng Việt mới và dùng tool của Unikey để loại bỏ dấu. Sau đó đưa các văn bản không dấu
vào hệ thống để thực hiện việc khôi phục dấu theo từng câu (tự động tách câu theo dấu chấm
câu). Văn bản khôi phục dấu được đối sánh với văn bản gốc để đánh giá mức độ chính xác của
phương pháp bằng tỷ lệ của số âm tiết/từ giống nhau trong hai văn bản chia cho số lượng âm
tiết/từ có trong văn bản. Kết quả cho thấy độ chính xác của phương pháp giao động quanh
tỷ lệ 98%.
5. KẾT LUẬN
Trong bài này, việc khôi phục dấu cho văn bản được hình thức hóa toán học một cách chặt
chẽ bằng một mô hình dich máy thông kê dưa trên cú pháp.
Kết quả thử nghiệm cho thấy việc sử dụng thông tin cú pháp trong bài toán tự động khôi
phục dấu cho văn bản giúp nâng cao đáng kể độ chính xác của kết quả.
Tuy nhiên trong quá trình thử nghiệm cũng xuất hiện một số trường hợp xâu đầu vào
không thể nhận biết được bởi văn phạm do hệ thống sinh ra từ tập ngữ liệu huấn luyện vì
trong xâu xuất hiện các âm tiết/từ mới (OOV). Trước mắt trong những trường hợp này chúng
tôi chọn giải pháp chép lại toàn bộ xâu vào văn bản kết quả. Trong tương lai có thể khắc phục
hiện tượng đó bằng sự kết hợp với phương pháp khôi phục dấu ở mức ký tự.
Hệ thống có tính độc lập ngôn ngữ cao nên hoàn toàn có thể áp dụng cho các ngôn ngữ
có sử dụng dấu khác.
TÀI LIỆU THAM KHẢO
[1] Philipp Koehn, “Statistical Machine Translation,” University of Edinburgh, 2007
[2] Menno M. van Zaanen, “Boostrapping Structure into Language: Alignment-Based Learning,”
Ph.D. thesis, University of Leeds, 2001.
[3] Kiem-Hieu Nguyen et al., Diacritics restoration in vietnamese: letter based vs. syllable based
model. PRICAI’10 Proceedings of the 11th Pacific Rim International Conference on
Trends in Artificial Intelligence, Springer-Verlag Berlin, Heidenberg, 2010 (631–636).
[4] Guy De Pauw et al., Automatic Diacritic Restoration for Resource-Scarce Languages, In
V. Matousek and P. Mautner (Eds.): TSD 2007, LNAI 4629, Springer Verlag Berlin, Heidenberg,
2007 (170–179).
[5] J. A. Mahar, G. Q. Memon, and H. Shaikh, Sindhi diacritics restoration by letter level learning
approach, Sindh Univ. Res. Jour. (Sci. Ser.) 43 (2) (2011) 119–126.
48 NGUYỄN MINH HẢI, NGUYỄN MINH TUẤN
[6] John Cocks and Te Taka Keegan, A word-based approach for diacritic restoration in Maori, Pro-
ceedings of Australasian Language Technology Association Workshop, Canberra, Australia,
2011 (126–130).
[7] Tuan Anh Luu et al., A pointwise approach for Vietnamese diacritics restoration, International
Conference on Asian Language Processing (IALP), Hanoi, Vietnam, 2012.
[8] Tim Schlippe et al., Diacritization as a machine translation problem and as a sequence labeling
problem, 2007 www.amtaweb.org/papers/3.05_Schlippe.pdf
[9] Rada F. Mihalcea, Diacritics Restoration: Learning from Letters versus Learning from Words.
CICLing, volume 2276 of Lecture Notes in Computer Science, Springer, 2002 ( 339–348).
Ngày nhận bài 30 - 3 - 2013
Nhận lại sau sửa ngày 28 - 02 - 2014

File đính kèm:

  • pdfcach_tiep_can_dich_may_thong_ke_dua_tren_cu_phap_giai_bai_to.pdf