Bài giảng Một số tài nguyên cho nhận dạng thực thể y sinh

Tóm tắt Bài giảng Một số tài nguyên cho nhận dạng thực thể y sinh: ... về y sinh và khoa học đời sống của Viện Y học quốc gia Mỹ)PubMed cung cấp quyền truy cập miễn phí tới CSDL Medline. MEDLINE: là csdl thư mục hàng đầu của thư viện y khoa quốc gia Hoa Kỳ, gồm: - 4.800 nhan đề tạp chí về y khoa - 19 triệu tham chiếu (references) lưu trữ từ đầu thập niên 50’ đến nay.6...gắn nhãn Gene và Protein. ABGene: 4000 câu đã gắn nhãn Gene và ProteinGENIAJunichi Tsujii (University of Tokyo)Genia Corpus44 nhãn thực thểGenia OntologyGenia ToolsGENIA Sentence Splitter: Tách câu (mô hình ME)GENIA Tagger: PosTag, NER, Shallow parsing11CALBC CorporaCALBC (Collaborative Annotation o...)Sử dụng mô hình CRF(Mallet) và 2 loại đặc trưng chính:Chính tả: viết hoa, chữ số,Ngữ nghĩa: Thêm đặc trưng lớp ngữ nghĩa của từVí dụ: B. Settles (2004). Biomedical Named Entity Recognition Using Conditional Random Fields and Rich Feature Sets. In Proceedings of the International Joint Workshop on N...

ppt23 trang | Chia sẻ: havih72 | Lượt xem: 345 | Lượt tải: 0download
Nội dung tài liệu Bài giảng Một số tài nguyên cho nhận dạng thực thể y sinh, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
MộT Số TÀI NGUYÊN CHO NHậN DạNG THựC THể Y SINHTRẦN MAI VŨNỘI DUNGThực thể y sinhMột số kho dữ liệu về y sinhMột số công cụ nhận diện thực thể y sinhKế hoạch tiếp theoThực thể y sinhCác thực thể y sinh phổ biến:Protein, DNA, RNA, Cell line, Cell type, GeneDisease (bệnh), Symptom (triệu chứng), Virus, Atom=> Kiểu hình(Phenotype), Gene, Bệnh (Disease) , Hóa chất (Chemical)3Thách thức4Thiếu quy ước đặc tên trong sinh họcSự đa dạng trong thuật ngữ:Dùng từ tiếng Anh: Vd: light, map, complement,tên geneSử dụng số: Vd: 9-cis retinoic acidSử dụng các ký tự và mã: M(2)201Sự lồng nhau giữa các tên: Vd: “[leukaemic[T [cell line]] Kit225]”Sự phối hợp: “B and T cells”Sự đồng âmTính đa nghĩaNhiều biến thể của một tên: Vd: “-150 CD28 response element (CD28RE)/AP-1 site” cũng là “-150 CD28RE/AP-1 site”.Phenotype EntityKiểu hình(Phenotype): Đặc tính ấn định bởi di truyền có thể quan sát được của một tế bào hoặc sinh vật [1]Tổ hợp của các đặc điểm quan sát được hoặc những đặc điểm của một sinh vật: như hình thái, sự phát triển, đặc tính sinh hóa hoặc sinh lý, vật hậu học (phenology), hành vi, và các sản phẩm của hành vi (chẳng hạn như tổ của một con chim).[2]Ví dụ: 4-5 finger syndactyly5[1]. Strachan, T., Read, A.: Human Molecular Genetics, 3rd edn. Garland Science/Taylor & Francis Group (2003)[2].  Central (Trung tâm lưu trữ báo điện tử về y sinh và khoa học đời sống của Viện Y học quốc gia Mỹ)PubMed cung cấp quyền truy cập miễn phí tới CSDL Medline.	MEDLINE: là csdl thư mục hàng đầu của thư viện y khoa quốc gia Hoa Kỳ, gồm:	- 4.800 nhan đề tạp chí về y khoa	- 19 triệu tham chiếu (references) lưu trữ từ đầu thập niên 50’ đến nay.6PubmedMeSH MeSH(Medical Subject Heading): Tiêu đề y khoa là tập các từ vựng dùng để phân loại các bài báo trong Medline. Các từ vựng này được mô tả theo cấu trúc cây.Ví dụ: 21,973 mô tảHàng nghìn tham chiếu chéoUMLSUMLS(Unified Medical Language System): bao gồm các cụm khái niệm y học cùng nghĩa(đồng nghĩa, biến thể của từ, từ trong các ngôn ngữ, từ viết tắt)Hơn 1.5 triệu từ tiếng Anh nằm trong hơn 60 nhóm và được tổ chức trong 775 nghìn khái niệmMedTagL. Smith và cộng sự. MedTag là CSDL kết hợp của 3 bộMedPost: 6700 câu đã gắn nhãn từ loại (POSTagger chính xác 97.4%)GENETAG: 15000 câu đã gắn nhãn Gene và Protein. ABGene: 4000 câu đã gắn nhãn Gene và ProteinGENIAJunichi Tsujii (University of Tokyo)Genia Corpus44 nhãn thực thểGenia OntologyGenia ToolsGENIA Sentence Splitter: Tách câu (mô hình ME)GENIA Tagger: PosTag, NER, Shallow parsing11CALBC CorporaCALBC (Collaborative Annotation of a Large Biomedical Corpus)Challenge task A: Named Entity RecognitionChallenge task B: Concept identificationCALBC CorporaCALBC-SSC-III-Small: 174,999 Medline abstracts, 2,548,900 annotationsCALBC-SSC-III-Big: 714,283 Medline abstracts, 10,304,172 annotations16 nhãn ngữ nghĩa và 133 nhãn con tương ứng UMLSHuman Phenotype OntologyLà ontology về các kiểu hình trên người, phát triển dựa trên các thông tin từ kho dữ liệu OMIM (Online Mendelian Inheritance in Man)Gần 10 nghìn từ về kiểu hình trên ngườiGần 50 nghìn chú thích về sự di truyền bệnhMột số Corpora khácABNERTác giả Burr Settles (Java)Sử dụng mô hình CRF(Mallet) và 2 loại đặc trưng chính:Chính tả: viết hoa, chữ số,Ngữ nghĩa: Thêm đặc trưng lớp ngữ nghĩa của từVí dụ: B. Settles (2004). Biomedical Named Entity Recognition Using Conditional Random Fields and Rich Feature Sets. In Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and its Applications (NLPBA), Geneva, Switzerland, pages 104-107.BannerTác giả Bob Leaman và Graciela Gonzalez (Java)Sử dụng mô hình CRFSử dụng thêm đặc trưng phân tích cú pháp ở mức sâuLeaman, R. & Gonzalez G. (2008) BANNER: An executable survey of advances in biomedical named entity recognition. Pacific Symposium on Biocomputing 13:652-663(2008) BannerCác loại đặc trưng 20SSVMshDạng tựsyNhãn cú phápHHMMgnChuỗi genetrLuậtCCRFwvBiến thể của từabViết tắtMMEMMlnĐộ dài từcaCác thực thể kháclxTừ vựnggzTra từ điểndoThông tin tài liệuafCác thông tin liên quan (ngram)poNhãn từ loạipaDấu ngoặcorChính tảnpNhãn cụm danh từprSử dụng các nhãn đã dữ đoánMột số phương pháp giải quyết21Định hướng tiếp theoNhận dạng Phenotype, Gene, Bệnh (Disease), Hóa chất (Chemical)Vấn đề: Phenotype chưa có tập dữ liệu huấn luyện, chỉ có HPO Dự kiến:Sử dụng CALBC làm tập huấn luyệnDùng HPO nhận dạng các câu có chứa Phenotype, sử dụng các câu tìm được làm câu huấn luyệnThử nghiệm trên một số đặc trưng đã khảo sátTHANK YOU

File đính kèm:

  • pptbai_giang_mot_so_tai_nguyen_cho_nhan_dang_thuc_the_y_sinh.ppt