Bài giảng Nhận dạng thực thể trong lĩnh vực y tế Tiếng Việt - Trần Thị Ngân
Tóm tắt Bài giảng Nhận dạng thực thể trong lĩnh vực y tế Tiếng Việt - Trần Thị Ngân: ...iàgiảm sức đề kháng, sự già hóa ở phổi, tim mạch, đái tháo đườngvirut, vi khuẩn, nấmngười mệt mỏi, lú lẫn,sốt thất thường,ho khan nhiều,nặng nhọc,khó thởAn thần, chống ho, corticoid, thuốc giãn phế quảnIENội dung 9/6/2021NER in Vietnamese Biomedical8Giới thiệu IE, NERNER trong y tế tiếng ViệtCác ph...u chữ B_ (bắt đầu một thực thể), I_(Bên trong một thực thể), nhãn O (Không phải thực thể)VÍ dụ: bệnh “viêm não Nhật Bản” có chuỗi nhãn tương ứng : “B_DIS I_DIS I_DIS I_DIS”Ví dụ về gán nhãn thực thể 9/6/2021NER in Vietnamese Biomedical14 Ngày 4 tháng 5 năm2005 Bộ Y_tế Việt_Nam đã xác_nhận thêm 5 trư...i nút có thể có hoặc không một số cung đến nút khácFSM bao gồm : Một bảng chữ ∑, một tập trạng thái S, một hàm chuyển T: S×∑ SHoạt động: Từ trạng thái ban đầu S0, xem xét từng ký tự trong xâu đầu vào trong ∑, dựa vào hàm chuyển T để đi đến trạng thái tiếp theo cho đến khi xâu đầu vào được xem xét ...
NHậN DạNG THựC THể TRONG LĨNH VựC Y TẾ TIẾNG VIỆT SINH VIÊN: TRầN THị NGÂN9/6/2021NER in Vietnamese Biomedical1Nội dung 9/6/2021NER in Vietnamese Biomedical2Giới thiệu IE, NERNER trong y tế tiếng ViệtCác phương pháp học máyKết luậnNội dung 9/6/2021NER in Vietnamese Biomedical3Giới thiệu IE, NERNER trong y tế tiếng ViệtCác phương pháp học máyKết luậnGiới thiệu IE, NER9/6/2021NER in Vietnamese Biomedical4IE là quá trình chắt lọc các thông tin từ cơ sở dữ liệu một cách tự động theo những tiêu chí nhất địnhNhiều mức độ trích chọn: trích chọn thực thể (NER),trích chọn quan hệ, xác định đồng tham chiếu Kỹ thuật: Phân đoạn , phân lớp (NER), kết hợp, phân cụm [William W. Cohen (CMU)]Kết quả: các mẫu (template) chứa một số lượng xác định các trường (slots) đã được điền thông tinGiới thiệu IE, NER9/6/2021NER in Vietnamese Biomedical5Bệnh phổi cấp tính là một trong những nguyên nhân tử vong chính của người già, nguy hiểm hơn cả bệnh phổi do cúm. Những nguyên nhân làm cho các bệnh phổi ở người già tăng nặng thêm là do giảm sức đề kháng, có nhiều bệnh khác phối hợp (tim mạch, đái tháo đường), những biến đổi do bản thân sự già hóa ở phổi. Vì vậy những tác nhân gây bệnh như virut, vi khuẩn, nấm dễ dàng tấn công và gây bệnh cho người cao tuổi. Triệu chứng thường gặp là người mệt mỏi, đôi khi có lú lẫn, sốt thất thường, ho khan nhiều và nặng nhọc, có khi khó thở. Các thuốc an thần, chống ho phải được sử dụng một cách thận trọng, nếu có biểu hiện thở rít cần phải phân biệt do hen phế quản thì phải dùng corticoid và thuốc giãn phế quản.Giới thiệu IE, NER 9/6/2021NER in Vietnamese Biomedical6Bệnh phổi cấp tính là một trong những nguyên nhân tử vong chính của người già, nguy hiểm hơn cả bệnh phổi do cúm. Những nguyên nhân làm cho các bệnh phổi ở người già tăng nặng thêm là do giảm sức đề kháng, có nhiều bệnh khác phối hợp (tim mạch, đái tháo đường), những biến đổi do bản thân sự già hóa ở phổi. Vì vậy những tác nhân gây bệnh như virut, vi khuẩn, nấm dễ dàng tấn công và gây bệnh cho người cao tuổi. Triệu chứng thường gặp là người mệt mỏi, đôi khi có lú lẫn, sốt thất thường, ho khan nhiều và nặng nhọc, có khi khó thở. Các thuốc an thần, chống ho phải được sử dụng một cách thận trọng, nếu có biểu hiện thở rít cần phải phân biệt do hen phế quản thì phải dùng corticoid và thuốc giãn phế quản.IEGiới thiệu IE, NER9/6/2021NER in Vietnamese Biomedical7Bệnh phổi cấp tính là một trong những nguyên nhân tử vong chính của người già, nguy hiểm hơn cả bệnh phổi do cúm. Những nguyên nhân làm cho các bệnh phổi ở người già tăng nặng thêm là do giảm sức đề kháng, có nhiều bệnh khác phối hợp (tim mạch, đái tháo đường), những biến đổi do bản thân sự già hóa ở phổi. Vì vậy những tác nhân gây bệnh như virut, vi khuẩn, nấm dễ dàng tấn công và gây bệnh cho người cao tuổi. Triệu chứng thường gặp là người mệt mỏi, đôi khi có lú lẫn, sốt thất thường, ho khan nhiều và nặng nhọc, có khi khó thở. Các thuốc an thần, chống ho phải được sử dụng một cách thận trọng, nếu có biểu hiện thở rít cần phải phân biệt do hen phế quản thì phải dùng corticoid và thuốc giãn phế quản.BệnhNgườiNguyên nhân Tác nhânTriệu chứngThuốcphổi cấp tínhngười giàgiảm sức đề kháng, sự già hóa ở phổi, tim mạch, đái tháo đườngvirut, vi khuẩn, nấmngười mệt mỏi, lú lẫn,sốt thất thường,ho khan nhiều,nặng nhọc,khó thởAn thần, chống ho, corticoid, thuốc giãn phế quảnIENội dung 9/6/2021NER in Vietnamese Biomedical8Giới thiệu IE, NERNER trong y tế tiếng ViệtCác phương pháp học máyKết luận Nhận dạng thực thể trong y tế tiếng Việt9/6/2021NER in Vietnamese Biomedical9Khó khăn: Tiếng Việt: Thiếu các tài nguyên wordnet, các tập corpus, thiếu thông tin ngữ pháp (POS), cụm động từ, danh từ, khoảng cách giữa các từ không rõ ràng, dễ gây nhập nhằngY tế : Thông tin lưu trữ không hoặc bán cấu trúc (tên thuốc, virus), các kiểu viết tắt tên thực thể, kiểu tên thực thể dài, đa dạng, các cách viết khác nhau của cùng một thực thể (cúm gà, cúm H5N1, cúm gia cầm) Cấu trúc hệ thống nhận dạng thực thể9/6/2021NER in Vietnamese Biomedical10Vẽ hìnhTiền xử lýLựa chọn thuộc tính Huấn luyện(HMM,CRF)Khôi phục + taggingInput(HTML)Output(HTML)[Luận văn,TuN.C,2005]Nhận dạng thực thể trong y tế tiếng Việt9/6/2021NER in Vietnamese Biomedical11Các bước chính Tiền xử lý: Loại bỏ HTML, tách câu, tách từ Lựa chọn thuộc tính: Lựa chọn các nhãn thẻ (tag), mẫu ngữ cảnh (feature: viết hoa, viết thường, )Giai đoạn huấn luyện, tự học: Sử dụng HMM, CRF, MEMM, SVMGán nhãn, khôi phục NER: Lựa chọn nhãn (tag)9/6/2021NER in Vietnamese Biomedical12Gán nhãn (tag) cho các từ khóa 7 dạng nhãn đầu tiên [Ralph & Beth, 1996]: ORG (tổ chức), LOC (vị trí), PER (người), DATE,TIME,CUR(Biểu diễn tiền tệ), PCT(Phần trăm)Tập tag có thể thay đổi, mở rộng tùy theo mỗi dự án, mục đích xây dựngDự án BioCaster: xây dựng 22 nhãn (tag) cho y tế [Collier et al. RIAO 2007]Ví dụ: DISEASE, PERSON, NON_HUMAN, VIRUS, PRODUCT, SYMPTOM, TIME, PROTEIN, CHEMICAL NER: Biểu diễn nhãn9/6/2021NER in Vietnamese Biomedical13Mỗi một nhãn gồm 3 phần : Phần biên (boundary category): Xác định vị trí của từ hiện tại trong một thực thểPhần thực thể (Entity category): Xác định kiểu thực thểTập tính năng (Feature set) : Xác định thông tin ngữ cảnh (mẫu ngữ cảnh) Một cách biểu diễn phần biên: Mỗi một nhãn gồm một tiếp đầu chữ B_ (bắt đầu một thực thể), I_(Bên trong một thực thể), nhãn O (Không phải thực thể)VÍ dụ: bệnh “viêm não Nhật Bản” có chuỗi nhãn tương ứng : “B_DIS I_DIS I_DIS I_DIS”Ví dụ về gán nhãn thực thể 9/6/2021NER in Vietnamese Biomedical14 Ngày 4 tháng 5 năm2005 Bộ Y_tế Việt_Nam đã xác_nhận thêm 5 trường_hợp người nhiễm viruscúm gia_cầm H5 .[Collier et al. RIAO 2007]Câu: Ngày 4 tháng 5 năm 2005 Bộ Y tế đã xác nhận thêm 5 trường hợp người nhiễm cúm gia cầm H5.Lựa chọn mẫu ngữ cảnh 9/6/2021NER in Vietnamese Biomedical15Là bài toán quan trọng quyết định đến độ chính xác của nhận dạng thực thểMẫu ngữ cảnh tại vị trí quan sát bất kỳ cho ta thông tin ngữ cảnhBài toán nhận dạng thực thể chung: viết hoa, viết thường, ký tự % , chữ sỗ, dấu chấm, phẩyBài toán tương tự trong y tế: Lựa chọn mẫu ngữ cảnh trong nhận dạng protein, gene, thuốc, tế bào Mẫu ngữ cảnh trong nhận dạng protein, tế bào9/6/2021NER in Vietnamese Biomedical16Các loại mẫu ngữ cảnhMẫu tiền định cơ bản (viết hoa, thường, chấm, phẩy): comma, dot, oneDigit, AllDigitsMẫu hình thái học: tiền tố, hậu tố (~virus, ~lipid, ~vitamin,)Mẫu ngữ pháp: cụm động từ, cụm danh từ Mẫu trigger ngữ nghĩa:Trigger danh từ chính: danh từ chính của một tổ hợp từ ( B Cell trong “activated human B cells”, bệnh trong “bệnh viêm xoang” )Trigger động từ đặc biệt: nhiễm, lây, bao gồm, gây ra Ví dụ về mẫu ngữ cảnh9/6/2021NER in Vietnamese Biomedical17Ví dụ Loét dạ dày tá tràng là bệnh hay gặp, chiếm tỷ lệ 30%, bệnh gây khó khăn cho người bệnh và xã hội. Chẩn đoán dựa vào nội soi dạ dày ống mềm xác định mức độ nhiễm vi khuẩn Helicobacter Pylory dựa vào clotest và mô bệnh học.Ngữ cảnh tiền định cơ cảnMẫu ngữ pháp (cụm động danh từ) Động từ đặc biệt9/6/2021NER in Vietnamese Biomedical18Giới thiệu IE, NERNER trong y tế tiếng ViệtCác phương pháp học máyKết luậnCác mô hình học máy 9/6/2021NER in Vietnamese Biomedical19HMM (Hidden Markov Model)MEMM (Maximum Entropy Markov Model)CRF (Conditional Random Fields)Máy trạng thái hữu hạn (FSM)9/6/2021NER in Vietnamese Biomedical20FSM được biểu diễn như một đồ thị có hướng : Có hữu hạn các nút (trạng thái), từ mỗi nút có thể có hoặc không một số cung đến nút khácFSM bao gồm : Một bảng chữ ∑, một tập trạng thái S, một hàm chuyển T: S×∑ SHoạt động: Từ trạng thái ban đầu S0, xem xét từng ký tự trong xâu đầu vào trong ∑, dựa vào hàm chuyển T để đi đến trạng thái tiếp theo cho đến khi xâu đầu vào được xem xét hếtGặp được trạng thái kết thúc là thành côngMô hình HMM cho bài toán NER9/6/2021NER in Vietnamese Biomedical21lable2lablenlable1 wordnwordiword1word2Chuỗi trạng tháiChuỗi quan sát HMM9/6/2021NER in Vietnamese Biomedical22Dữ liệuDữ liệu họcMô hình HMMHọcTrích chọn thông tinMô hình HMM trong IE:9/6/2021NER in Vietnamese Biomedical23Mục đích của HMM là tìm được chuỗi trạng thái S1N =s1 s2 s3 sn có mối tương quan nhất đối với chuỗi quan sát được O1N =o1 o2 ..on để xác xuất P(S1N |O2N) là lớn nhất Mô hình HMM được xác định bởi các tham số λ =(A,B,П0) , trong đó:A : Ma trận chuyển : gồm các xác suất chuyển trạng thái B: Ma trận sinh: gồm các xác suất để một trạng thái bất kỳ sinh ra quan sát nào đóП0 : Phân bố xác xuất ban đầuHMM ()HMM()9/6/2021NER in Vietnamese Biomedical24Bài toán dạy: Xác định các tham số λ =(A,B,П0) khi cho trước chuỗi quan sát G để làm cực đại P(O| λ)Bài toán giải mã: Từ chuỗi quan sát G, và mô hình với λ =(A,B,П0) đã có, tìm chuỗi trạng thái S phù hợp nhất với chuỗi OTrạng thái chỉ phụ thuộc trạng thái trước đó, giả thiết dữ liệu quan sát được tại một thời điểm chỉ phụ thuộc trạng thái tại thời điểm đóDùng thuật toán Viterbi cho bài toán giải mã MEMM9/6/2021NER in Vietnamese Biomedical25Mô hình HMM mô tả bởi tập S, O và hai xác suất P(s’|s), P(o|s)Mô hình MEMM thay thế bởi xác suất P(s’|s,o) : xác suất chuyển từ trạng thái s sang s’ qua quan sát hiện tại oTrong MEMM quan sát hiện tại phụ thuộc trạng thái hiện tại và trạng thái trước đóCRF9/6/2021NER in Vietnamese Biomedical26Là mô hình đồ thị vô hướngCRF có thể định nghĩa phân phối xác suất của toàn bộ chuỗi trạng thái từ chuỗi quan sátCông thức : P(Yv|X, Yw, w#v) = P(Yv|X, Yw, w є N(v)) , trong đó:X: Biến ngẫu nhiên nhận giá trị là chuỗi dữ liệu cần gán nhãnY: Biến ngẫu nhiên nhận giá trị là chuỗi nhãn tương ứngN(v): Tập đỉnh kề vXYn-1YnY2Y1.Kết luận9/6/2021NER in Vietnamese Biomedical27Báo cáo giới thiệu về bài toán trích chọn thông tin, trích chọn thực thể, những khó khăn thách thức trong lĩnh vực y tế Tiếng ViệtKhảo sát các thuộc tính, mẫu ngữ cảnh trong bài toán nhận dạng protein, tế bào Giới thiệu các mô hình học máy : HMM, MEMM, CRFHướng tiếp theo: Sử dụng mô hình HMM trong nhận dạng thực thể y tế Tiếng ViệtTài liệu tham khảo9/6/2021NER in Vietnamese Biomedical28Zhang, D. Shen, G. Zhou, J. Su and C. Tan. Effective Adaptation of a Hidden Markov Model-based Named Entity Recognizer for Biomedical Domain , 2003.Zhou Su, Named Entity Recognition using an HMM-based Chunk Tagger, 2002.Thao P.T. X, Tri T. Q, Kawazoe, Dien.D, Collier.N, Construction Of Vietnamese Corpora For Named Entity Regconition, 2007.Luận văn đại học, Ths N.C Tú .Nhận biết các loại thực thể trong văn bản tiếng Việt nhằm hỗ trợ Web ngữ nghĩa và tìm kiếm hướng thực thể ,2005.Khai phá Web, TS Phan Xuân Hiếu, 200Và nhiều tài liệu khác9/6/2021NER in Vietnamese Biomedical29 XIN CẢM ƠN!
File đính kèm:
- bai_giang_nhan_dang_thuc_the_trong_linh_vuc_y_te_tieng_viet.ppt