Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường
Tóm tắt Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường: ... CHỌN TỪ TRONG BIỂU DIỄN VĂN BẢN 1.4.1. Loại bỏ từ dừng 1.4.2. Thu gọn đặc trƣng biểu diễn Một trong những giải pháp để khắc phục những vấn đề trên là thu gọn số lượng các từ để biểu diễn văn bản hay là thu gọn số lượng các đặc trưng bằng cách lựa chọn các đặc trưng có khả năng ảnh hưởng đ...Cách viết hoa: theo quy định dấu câu và dấu tên riêng phải viết hoa. - Phiên âm tiếng nước ngoài: Các cách viết sau cẫn được chấp nhận và không có trong quy chuẩn tiếng Việt: Singapore/ Xin-ga-po,.. 11 - Từ gạch nối, kí tự ngắt câu: Các kí tự đặc biệt ".", ";", "!", "?", (…), (-), … ngăn ...bản trong mô hình vector Lựa chọn mô hình biểu diễn vector thưa dựa trên mô hình tần xuất TFxIDF để biểu diễn văn bản trong luận văn này bởi các lợi điểm sau: - Việc tính độ liên quan giữa hai văn bản đơn giản quy về tính độ lệch góc giữa hai vector tương ứng của chúng. 15 - Biểu diễn v...
File đính kèm:
- 00050001626.pdf