Áp dụng Bottle Neck Feature cho nhận dạng tiếng nói tiếng Việt
Tóm tắt Áp dụng Bottle Neck Feature cho nhận dạng tiếng nói tiếng Việt: ... tốt nhất áp dụng cho tiếng Anh. Cụ thể trong nghiên cứu [9], tác giả thử nghiệm với hai loại cấu trúc mạng MLP bốn lớp và năm lớp (một lớp input, một lớp output và hai hoặc ba lớp ẩn), kết quả các thử nghiệm cho thấy cấu trúc mạng MLP năm lớp cho kết quả tốt hơn cấu trúc mạng MLP bốn lớp khoảng ...ộc vào trạng thái trước nó st−1. Trong nghiên cứu này sử dụng mô hình HMM-GMM có cấu trúc dạng Left-Right liên kết không đầy đủ được minh hoạ như Hình 2. Hình 2. Mô hình HMM-GMM Left-Right với N trạng thái 3.2. Áp dụng mô hình HMM trong nhận dạng tiếng nói Trong nhận dạng tiếng nói, mô hình HMM... hiện cho tới khi độ lệch CV giữa hai vòng lặp liên tiếp nhỏ hơn 0.5. Để đánh giá được sự ảnh hưởng cũng như hiệu quả của các cấu trúc khác nhau lên kết quả nhận dạng tiến hành thử nghiệm với ba loại cấu trúc khác nhau trên mỗi loại đặc trưng. Sự khác biệt giữa các cấu trúc 386 NGUYỄN VĂN HUY, L...
) MLP và loại đặc trưng (feature) đầu vào khác nhau tới kết quả nhận dạng. Một mạng MLP có cấu trúc 5 lớp dạng cổ chai (Bottle Neck - BN) như Hình 1 sẽ được sử dụng để trích chọn đặc trưng cho tiếng nói, sau đó đặc trưng này sẽ được sử dụng trực tiếp như là đầu vào cho mô hình HMM, khi trích chọn đặc trưng chỉ sử dụng 3 lớp đầu tiên (lớp input, lớp ẩn thứ nhất, lớp BN) của mạng MLP. Như vậy đặc trưng BNF là một dạng đặc trưng của tiếng nói được trích chọn thông qua một mạng MLP có cấu trúc dạng cổ chai, để tăng tính hiệu quả của đặc trưng này cần tìm ra một cấu trúc mạng MLP tốt nhất để tối ưu khả năng phân lớp của mạng khi áp dụng cho một ngôn ngữ hay trên một tập dữ liệu cụ thể, bốn tham số cơ bản của mạng MLP cần xác định trong trường hợp này là số lớp ẩn, kích thước của các lớp ẩn, kích thước và vị trí của lớp BN. Trong các nghiên cứu [6] và [9] các tác giả đã làm các thử nghiệm khác nhau nhằm tìm ra cấu trúc MLP và vị trí cho lớp BN tốt nhất áp dụng cho tiếng Anh. Cụ thể trong nghiên cứu [9], tác giả thử nghiệm với hai loại cấu trúc mạng MLP bốn lớp và năm lớp (một lớp input, một lớp output và hai hoặc ba lớp ẩn), kết quả các thử nghiệm cho thấy cấu trúc mạng MLP năm lớp cho kết quả tốt hơn cấu trúc mạng MLP bốn lớp khoảng 1% WER. Cũng theo các kết quả đó thì vị trí của lớp BN là lớp ẩn thứ hai sẽ cho kết quả tốt nhất, với vị trí này lớp BN sẽ tận dụng được khả năng phân lớp qua lớp ẩn thứ nhất [6]. Kích thước của lớp BN nằm trong khoảng từ 25-65, kết của của nghiên cứu [6] và [7] đạt kết quả tốt nhất với kích thước BN là 39. Việc chọn kích thước của lớp BN lớn hơn có thể làm giảm WER trên một bộ dữ liệu cụ thể, tuy nhiên việc giảm là rất nhỏ trong khi đó nó sẽ làm tăng đáng kể thời gian huấn luyện mạng MLP và đồng thời cũng làm tăng kích thước của vector đặc trưng BNF dẫn đến làm tăng kích thước của mô hình HMM. Vấn đề tiếp theo là lựa chọn kích thước của lớp ẩn thứ nhất và lớp ẩn thứ ba, trong các nghiên cứu [10] và [11] gần đây nhất của nhóm “Reseach group 3-01, KIT” nhóm đã làm các thử nghiệm trên tiếng Anh và tiếng Tây Ban Nha, các tác giả cũng sử dụng cấu trúc mạng MLP năm lớp trong đó lớp BN là lớp ẩn thứ hai có kích thước là 42. Kết quả tối ưu nhất họ thu được trên cấu trúc MLP này tương ứng với kích thước lớp ẩn thứ nhất và thứ ba lần lượt là 4000, 4000. Dựa trên các kết quả nghiên cứu ở trên, dẫn đến quyết định cài đặt BNF cho tiếng Việt với cấu trúc mạng MLP năm lớp dạng L1-L2-L3-L4-L5. Trong đó: L1 là lớp input, kích thước của L1 phụ thuộc vào kích thước của đặc trưng đầu vào. L2 là lớp ẩn thứ nhất, trong phạm vi nghiên cứu này sẽ làm các thử nghiệm với L2 có kích thước khác nhau để tìm ra kích thước tối ưu nhất. L3 là lớp BN với kích thước 39. L4 là lớp ẩn thứ ba với kích thước định sẵn là 1000. L5 là lớp ouput, kích thước của L5 phục thuộc vào số lớp(classes) đầu ra mà mạng MLP cần phân lớp. Cấu trúc mạng MLP này được mô tả ở Hình 1. Mạng MLP này sau đó được huấn luyện bằng phương pháp học lan truyền ngược (back propagation) có giám sát trên tập dữ liệu huấn luyện như quá trình huấn luyện một mạng MLP thông thường. Ở nghiên cứu này ta sử dụng hàm kích hoạt ở các lớp ẩn là hàm Sigmoid, tại lớp output là hàm Softmax khi huấn luyện mạng. Sự khác biệt chỉ ở bước sử dụng mạng này để trích chọn đặc trưng, toàn bộ dữ liệu huấn luyện được sử dụng lại như là đầu vào để 382 NGUYỄN VĂN HUY, LƯƠNG CHI MAI, VŨ TẤT THẮNG trích chọn đặc trưng ở đầu ra. Các vector dữ liệu này lần lượt được lan truyền thẳng từ đầu vào mạng qua lớp ẩn thứ nhất và dừng lại ở lớp BN, tại lớp BN các giá trị kích hoạt được tính toán trên các notes sử dụng hàm kích hoạt tuyến tính như công thức (1) sẽ được dùng như các đặc trưng thu được từ đầu vào, lớp ẩn thứ ba và lớp output của mạng không được sử dụng tại bước này. Một trong các ưu điểm của phương pháp này là kích thước của vector đặc trưng BNF thu được không thay đổi (trong trường hợp này là 39) dẫn đến cấu trúc của mô hình HMM sử dụng đặc trưng này cũng không thay đổi cho dù ta muốn thay đổi kích thước của frame window để tăng thông tin về ngữ cảnh thời gian, số trạng thái cần phân lớp ở lớp output hay kích thước của các lớp ẩn. Hình 1. Cấu trúc mạng MLP năm lớp với lớp Bottle Neck là lớp ẩn thứ 2 |BNFi = n∑ j=1 |rj ∗ |Wi + hi, với i = 1, ..., 39 (1) trong đó: BNFi là giá trị của thành phần thứ i trong vector 39 chiều BNF thu được. n là kích thước của lớp ẩn thứ nhất. rj là giá trị kích hoạt tại note thứ j ở lớp ẩn thứ nhất. Wi trọng số của note thứ i tại lớp BN. hi là hệ số Bias của note thứ i tại lớp BN. 3. MÔ HÌNH HMM 3.1. Định nghĩa HMM HMM là mô hình xác suất dựa trên lý thuyết về chuỗi Markov [13] bao gồm các đặc trưng sau: O = {o1, o2, . . . , oT } là tập các vector quan sát. ÁP DỤNG BOTTLE NECK FEATURE CHO NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT 383 S = {s1, s2, ..., sN} là tập hữu hạn các trạng thái s gồm N phần tử. A = {a11, a12, ..., aNN} là ma trận hai chiều trong đó aij thể hiện xác suất để trạng thái si chuyển sang trạng thái sj , với aij ≥ 0 và ∑ j=k aij = 1, |∀i. B = {b2t, bit, ..., b(N−1)t} là tập các hàm xác suất phát tán của các trạng thái từ s2 đến sN−1, trong đó bit thể hiện xác suất để quan sát ot thu được từ trạng thái si tại thời điểm t. Trong nhận dạng tiếng nói hàm bit thường được sử dụng là hàm Gaussian với nhiều thành phần trộn (mixture) có dạng như công thức (2), trong trường hợp này ta gọi là mô hình kết hợp Hidden Markov Model và Gaussian Mixtrue Model(HMM-GMM) bi(ot) = M∑ k=1 cikN (ot;µik,ik) (2) trong đó, ot là vector quan sát tại thời điểm t, M là số thành phần trộn của hàm Gaussian, cik, µik,ik theo thứ tự là trọng số, vector trung bình và ma trận phương sai (covariance matrix) của thành phần trộn thứ k của trạng thái si. Π = {pii} là tập xác suất trạng thái đầu, với pii = P (q1 = si) với i = 1..N là xác suất để trạng thái si là trạng thái đầu q1. Như vậy một cách tổng quát một mô hình HMM λ có thể được biểu điễn bởi λ = (A,B,Π). Trong lĩnh vực nhận dạng các mô hình HMM được áp dụng với hai giả thiết sau: + Một là giả thiết về tính độc lập, tức không có mỗi liên hệ nào giữa hai quan sát lân cận nhau oi và oi+1, khi đó xác suất của một chuỗi các quan sát O = {oi} có thể được xác định thông qua xác suất của từng quan sát oi như sau P (O) = ∏T i=t P (oi). + Hai là giả thiết Markov, xác suất chuyển thành trạng thái st chỉ phụ thuộc vào trạng thái trước nó st−1. Trong nghiên cứu này sử dụng mô hình HMM-GMM có cấu trúc dạng Left-Right liên kết không đầy đủ được minh hoạ như Hình 2. Hình 2. Mô hình HMM-GMM Left-Right với N trạng thái 3.2. Áp dụng mô hình HMM trong nhận dạng tiếng nói Trong nhận dạng tiếng nói, mô hình HMM-GMM có thể được sử dụng để mô hình hoá cho các đơn vị tiếng nói như Âm vị (phoneme), Từ (word) hoặc Câu (sentence). Khi đó tập quan sát O = {ot} sẽ tương ứng với mỗi một phát âm(utterance) trong đó ot là tập các vector đặc trưng (feature vector) tiếng nói đầu vào thu được tại thời điểm t. Có nhiều cấu trúc HMM khác nhau, tuy nhiên trong thực thế, cấu trúc của HMM-GMM thường được sử dụng có 5 hoặc 7 trạng thái theo cấu trúc Left-Right được mô tả ở Hình 2. Các hệ thống nhận dạng tiếng nói sử dụng HMM-GMM thường chia ra làm hai quá trình: 384 NGUYỄN VĂN HUY, LƯƠNG CHI MAI, VŨ TẤT THẮNG a. Huấn luyện(training) Đối với từng ngôn ngữ, dữ liệu và mục đích cụ thể ta sẽ dùng HMM-GMM để mô hình cho các đơn vị nhận dạng là Âm vị, Từ hoặc Câu. Khi đó một hệ thống sẽ bao gồm một tập các mô hình HMM-GMM λ = {λi}. Đối với mỗi phát âm O = {ot} được mô hình bởi một chuỗi các trạng thái Q = {qt} với qt ∈ S từ một hoặc nhiều mô hình λi. Quá trình huấn luyện là quá trình ước lượng các tham số sao cho xác suất P (Q | O, λ) là lớn nhất, P (Q | O, λ) [13] được tính theo công thức (3), P (Q | O, λ) được gọi là xác suất mô hình ngữ âm (acoustic model). P (Q | O, λ) = Q∑ qt pitkatk−1tkbtk(ot), k = 1..N. (3) b. Nhận dạng(decoding). Nhận dạng là quá trình xác định chuỗi trạng thái {qi} = Q, qi ∈ S từ các mô hình HMM {λi} = λ đã được huấn luyện tương ứng với một chuỗi đầu vào {ot} = O sao cho xác suất P (O,Q | λ) là lớn nhất, với P (O,Q | λ) = max(P (q1, q2, ..., qt = i, o1, o2, ..., ot | λ)). 4. CÀI ĐẶT THỬ NGHIỆM 4.1. Dữ liệu thử nghiệm Nghiên cứu cài đặt thử nghiệm trên bộ dữ liệu Vietnam BroadcastNews(VOV) của Viện Công nghệ thông tin-Viện Hàn Lâm Khoa học và Công nghệ Việt Nam. Tổng thời lượng khoảng 19 giờ thu âm lấy từ các mục Đọc truyện, Tin tức, Phỏng vấn của đài tiếng nói Việt Nam. Có tổng cộng 23424 câu phát âm (utterances), 30 người nói (speaker) gồm cả nam và nữ giọng miền Bắc. Từ điển được xây dựng trên tập gồm 46 âm vị không có thanh điệu (đã bao gồm cả 2 âm silence, và short-pause), bộ từ vựng có 4923 âm tiết, bao gồm hầu hết các âm tiết thường sử dụng. Trong thử nghiệm này sử dụng 17 giờ cho huấn luyện(training) và 2 giờ cho nhận dạng (decoding). Tại bước nhận dạng sử dụng mô hình ngôn ngữ (language model) mức tri-gram, được tạo ra từ toàn bộ dữ liệu phiên âm tương ứng với phần dữ liệu huấn luyện. 4.2. Dữ liệu huấn luyện mạng BN-MLP Nghiên cứu đã tiến hành thử nghiệm trên hai loại đặc trưng là PLP và MFCC với số chiều là 13, ký hiệu lần lượt là PLP13, MFCC13. Đầu tiên một hệ thống nhận dạng được huấn luyện với 4000 mô hình HMM-GMM 5 trạng thái cho các âm phụ thuộc ngữ cảnh (tied-state triphone) được tạo ra từ 46 âm vị đơn, mỗi trạng thái sử dụng 16 thành phần trộn với đặc trưng đầu vào PLP13. Sau đó hệ thống này được dùng để phân đoạn (segmentation) và gán nhãn (force alignment) lại cho các đặc trưng PLP13 và MFCC13 thu được ở trên. Dữ liệu được gán nhãn ở mức trạng thái âm đơn (monophone), do hệ thống được xây dựng trên tập 46 âm vị đơn, mỗi âm vị đơn này được mô hình hoá bởi một mô hình HMM-GMM 5 trạng thái, như vậy không xét hai trạng thái đầu vào và đầu ra, mỗi âm vị sẽ có ba nhãn tương ứng với ba trạng thái (phoneme-state) s2, s3 và s4 của mô hình HMM-GMM. Hình 3 là một ví dụ về mô hình HMM-GMM 5 trạng thái của âm “a”, mô hình này sau khi huấn luyện được dùng để phân đoạn và gán nhãn lại cho các vector đặc trưng MFCC13/PLP13 thu được từ ÁP DỤNG BOTTLE NECK FEATURE CHO NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT 385 tín hiệu tiếng nói tương ứng với âm “a”. Trong thử nghiệm này mô hình HMM-GMM của âm short-pause chỉ có một trạng thái được cấu hình dựa trên HMM-GMM của âm silence, vì vậy ta có 45 ∗ 3 + 1 = 136 nhãn. Đây cũng chính là kích thước của lớp đầu ra của mạng MLP cần sử dụng. Dữ liệu sau khi được phân đoạn và gán nhãn sẽ được dùng để huấn luyện các mạng MLP. Hình 3. Ví dụ mô hình HMM-GMM 5 trạng thái của âm “a” được sử dụng để phân đoạn và gán nhãn cho đặc trưng đầu vào tương ứng của âm “a” 4.3. Huấn luyện MLP Bảng 1. Kết quả huấn luyện MLP Feature Denote (Input feature-Size of L2) Topology Cross Validation Accuracy(%) (CV) MFCC13 MFCC13-1000 195-1000-39-1000-136 56.06 MFCC13-2000 195-2000-39-1000-136 56.92 MFCC13-3000` 195-3000-39-1000-136 54.81 PLP13 PLP13-1000 195-1000-39-1000-136 61.41 PLP13-2000 195-2000-39-1000-136 62.94 PLP13-3000 195-3000-39-1000-136 63.54 Mạng MLP được sử dụng có cấu trúc như đã trình bày ở Phần 2, sử dụng frame window là 15, mỗi frame có kích thước là 13 tương ứng với số chiều của PLP13 và MFCC13, như vậy một vector đầu vào cho mạng có kích thước là 15 ∗ 13 = 195. Mạng có ba lớp ẩn trong đó lớp BN là lớp ẩn thứ hai L3 có kích thước cố định là 39, kích thước của lớp ẩn thứ nhất L2 sẽ được thay đổi, lớp ẩn thứ ba L4 có kích thước cố định là 1000, lớp ra output L5 có kích thước 136 tương ứng với 136 nhãn của dữ liệu huấn luyện đã được gán nhãn ở Phần 4.2. Hàm Sigmoid được sử dụng làm hàm kích hoạt ở các lớp ẩn, hàm phân lớp ở lớp đầu ra là Sorftmax. Các mạng MLP được huấn luyện với công cụ Quicknet [16], các vòng lặp huấn luyện được thực hiện cho tới khi độ lệch CV giữa hai vòng lặp liên tiếp nhỏ hơn 0.5. Để đánh giá được sự ảnh hưởng cũng như hiệu quả của các cấu trúc khác nhau lên kết quả nhận dạng tiến hành thử nghiệm với ba loại cấu trúc khác nhau trên mỗi loại đặc trưng. Sự khác biệt giữa các cấu trúc 386 NGUYỄN VĂN HUY, LƯƠNG CHI MAI, VŨ TẤT THẮNG chỉ là kích thước của lớp ẩn thứ nhất L2, ba cấu trúc áp dụng tương ứng với kích thước của L2 lần lượt là 1000, 2000, và 3000. Kết quả huấn luyện mạng MLP được trình bày ở Bảng 1. 4.4. Trích chọn đặc trưng BNF Quy trình trích chọn đặc trưng BNF được mô tả ở Hình 4. Toàn bộ dữ liệu huấn luyện đã được phân đoạn ở Phần 4.2 sẽ được sử dụng như là đầu vào để trích chọn đặc trưng BNF. Tín hiệu tiếng nói sau khi được phân đoạn sử dụng cửa sổ có độ dài 25ms với tốc độ 10ms sẽ được đưa qua module phân tích để thu được đặc trưng PLP13 hoặc MFCC13, sau đó mỗi 15 khung liên tiếp sẽ được tổ hợp để tạo ra một vector đầu vào cho MLP, ta gọi đầu vào này là X. Như đã trình bày ở Phần 2, tại bước trích chọn đặc trưng này ta chỉ sử dụng ba lớp đầu tiên của mạng MLP (L1,L2,L3) để tính toán BNF. Sử dụng hàm lan truyền (forward function) của công cụ Quicknet với hàm đầu ra là hàm tuyến tính được trình bày ở công thức (1) để tính toán đặc trưng BNF, đặc trưng BNF này kí hiệu là Xbnf . Xbnf được phân lớp một lần nữa sử dụng phương pháp Linear Discriminant Analysis (LDA) [15] với frame window là 3, đầu ra của bước này kí hiệu là Xlda có kích thước 39, sau đó Xlda sẽ được sử dụng như đầu vào cho việc huấn luyện cũng như nhận dạng với mô hình HMM-GMM. Hình 4. Sơ đồ các bước trích chọn đặc trưng BNF 4.5. Huấn luyện mô hình HMM-GMM Các mô hình HMM-GMM của các âm ba (triphones) được huấn luyện sử dụng công cụ Sphinx [17] trên bộ dữ liệu VOV với 4000 trạng thái buộc (tied-state triphone), mỗi trạng thái sử dụng 16 thành phần trộn. Xây dựng 6 hệ thống từ 6 đặc trưng BNF khác nhau, các đặc trưng này thu được bằng cách sử dụng 6 mạng MLP đã được huấn luyện ở Phần 4.3 tương ứng với hai đặc trưng PLP13 và MFCC13. Ở cột “Feature” của Bảng 2 các đặc trưng này được ký hiệu là MFCC13/PLP13-xxx, thể hiện đặc trưng thu được thông qua việc sử dụng mạng MLP có ký hiệu tương ứng trong bảng 2, trong đó MFCC13 hoặc PLP13 thể hiện đặc trưng đầu vào được đưa vào mạng MLP để trích chọn BNF, xxx thể hiện kích thước của lớp ẩn thứ nhất L2 của mạng được sử dụng. Để so sánh hiệu quả của BNF ta xây dựng thêm 2 hệ thống cơ sở (baseline) cùng tham số nhưng không sử dụng BNF dựa trên hai đặc trưng là PLP13 và MFCC13. ÁP DỤNG BOTTLE NECK FEATURE CHO NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT 387 4.6. Kết quả thử nghiệm Các kết quả thử nghiệm được đánh giá trên tham số WER (Word Error Rate), với các kết quả cụ thể như ở Bảng 2. Qua kết quả thử nghiệm ta dễ nhận thấy việc áp dụng BNF cho kết quả tốt hơn các hệ thống cơ sở với WER thấp hơn trung bình là 6-7%. Các kết quả thử nhiệm cũng cho thấy đặc trưng PLP cho kết quả tốt hơn MFCC 2.01% trên hệ thống cơ sở, nhưng trên hệ thống dùng BNF thì MFCC lại cho kết tốt hơn PLP 0.11%. Các kết quả cũng chỉ ra rằng kết quả huấn luyện MLP ảnh hưởng trực tiếp đến kết quả của hệ thống nhận dạng, độ chính xác đánh giá chéo (Cross Validation-CV) tỉ lệ nghịch với WER. Đối với đặc trưng PLP cho kết quả tốt nhất trên cấu hình mạng MLP có kích thước L2=3000, đối với đầu vào MFCC là L2=2000. Bảng 2. Kết quả thử nghiệm System Feature WER (%) Baseline MFCC13 22.10 BNF System MFCC13-1000 15.50 MFCC13-2000 14.09 MFCC13-3000 15.80 Baseline PLP13 20.09 BNF System PLP13-1000 14.70 PLP13-2000 14.60 PLP13-3000 14.20 5. KẾT LUẬN Nghiên cứu đã trình bày phương pháp cài đặt BNF cho nhận dạng tiếng Việt trên bộ dữ liệu có kích thước trung bình, kết quả cho thấy BNF có hiệu quả đối với tiếng Việt, kết quả trung bình tốt hơn so với hệ thống cơ sở là 6-7%, kết quả thử nghiệm tốt nhất với đặc trưng MFCC sử dụng cấu trúc là 195-2000-39-1000-136. Theo kết quả ở Bảng 1, ta có thể thấy độ chính xác đánh giá chéo CV tỉ lệ thuận với kích thước của lớp ẩn thứ nhất L2, việc làm tăng CV có thể làm giảm WER. Tuy nhiên việc tăng kích thước L2 làm tăng đáng kể thời gian huấn luyện hệ thống, trong khi giá trị giảm trên WER không thực sự lớn. Và trong thực tế việc tăng kích thước L2 không phải lúc nào cũng làm tăng giá trị CV, từ Bảng 1 ta dễ nhận thấy với đặc trưng MFCC13 kết quả CV với L2=3000 thấp hơn cấu trúc có L2=2000 là 2.1%. So sánh các kết quả của nghiên cứu này với các nghiên cứu [6, 9, 10, 11] cho thấy để tìm ra một cấu trúc mạng MLP tối ưu nhất sẽ phụ thuộc vào từng ngôn ngữ và đặc tính của tập dữ liệu huấn luyện cụ thể. Tuy nhiên hầu hết các thí nghiệm đều đạt kết quả tốt với kích thước của L2 và L4 trong khoảng từ 1000-4000. Trong các nghiên cứu tiếp theo để hoàn thiện chúng tôi sẽ tiếp tục thử nghiệm các cấu trúc, hàm kích hoạt ở lớp BN trên các loại đặc trưng khác, nhằm đánh giá và tìm ra các tham số cho một hệ thống BNF tốt nhất cho nhận dạng tiếng Việt. Về đặc trưng thanh điệu của tiếng Việt, sẽ tiến hành nghiên cứu mô hình MSD (Multi Space Distribution) đã được nghiên cứu thành công cho tiếng Mandarin, tiếng Thái và tích hợp vào hệ thống. TÀI LIỆU THAM KHẢO [1] A. Janin et al., The ICSI-SRI Spring 2006 meeting recognition system, Machine Learning for Multimodal Interaction, Lecture Notes in Computer Science, vol.4299, Springer, 2006 (444–456). 388 NGUYỄN VĂN HUY, LƯƠNG CHI MAI, VŨ TẤT THẮNG [2] B. H. Juang, L. R. Rabiner, Hidden markov models for speech recognition, Technometrics 33 (3) (Aug. 1991) 251–272. [3] M. Gales, S. Young, The application of hidden markov models in speech recognition, Signal Processing 1 (3) (2007) 195–304. [4] Hynek Hermansky, Daniel P.W. Ellis, Sangita Sharma, Tandem connectionist feature extraction for conventional HMM systems, Proc. ICASSP-2000, Turkey, 2000. [5] Christian Plahl, Ralf Schluter and Hermann Ney, Improved Acoustic Feature Combination for LVCSR by Neural Networks, in INTERSPEECH, August 2011. [6] Frantisek Grézl, Martin Karafiát, Stanislav Kontár, and Jan Cernocký, Probabilistic and Bottle- Neck Features for LVCSR of meetings, Proc. ICASSP-2007, Vol.4, Honolulu-Hawaii, 2007 (757–760). [7] K. Vesely, M. Karafiat, F. Grezl, Convolutive Bottleneck Network features for LVCSR, Auto- matic Speech Recognition and Understanding Workshop, Haiwaii, December 2011 (42–47). [8] Dang Ngoc Duc, John-Paul Hosom, Luong Chi Mai, HMM/ANN system for Vietnamese con- tinuous digit recognition, 16th International Conference on Industrial and Engineering Applications of Artificial Intelligence and Expert Systems, Loughborough-UK, 2003, (481– 486). [9] Frantisek Grézl, Petr Fousek, Optimizing Bottel-neck features for LVCSR, Proc. ICASSP-2008, Las Vegas, 2008 (4729–4732). [10] S. Stuker, K. Kilgour, C. Saam, and A. Waibel, The 2011 kit english asr system for the iwslt evaluation, Proceedings of the International Workshop on Spoken Language Translation (IWSLT), San Francisco, December, 8-9, 2011. [11] K. Kilgour, C. Saam, C. Mohr, S. Stuker, and A. Waibel, The 2011 KIT Quaero Speech-to- text system for Spanish, Proceedings of the International Workshop on Spoken Language Translation (IWSLT) 2011, San Francisco, December, 2011 (199–205). [12] Christian Plahl , Ralf Schlu¨ter , Hermann Ney, Hierarchical Bottle Neck Features for LVCSR, Proc. INTERSPEECH, Makuhari, Japan, 2010. [13] L. Rabiner, B. Juang, An introdution to Hidden Markov Models, IEEE 77 (2) (1989) 257–286. [14] BhupinderSingh, Neha Kapur, PuneetKaur, Speech recognition with Hidden Markov Model: A review, International Journal of Advanced Research in Computer Science and Software Engineering 2 (3) (March 2012). [15] M. Sakai, N. Kitaoka, S. Nakagawa, Generalization of Linear Discriminant Analysis used in Segmental Unit Input HMM for Speech Recognition, Proc. ICASSP-2007, Vol.4, Honolulu- Hawaii, 2007 (333–336). [16] International computer science institute, MLP toolkit Quicknet, online: [17] Carnegie Mellon University, Open Source Toolkit For Speech Recognition, CMUSphinx, online: Ngày nhận bài 14 - 7 - 2013 Nhận lại sau sửa ngày 22 - 11 - 2013
File đính kèm:
- ap_dung_bottle_neck_feature_cho_nhan_dang_tieng_noi_tieng_vi.pdf