MộT Số TÀI NGUYÊN CHO NHẬN DẠNG THỰC THể Y SINH
lượt xem 10
download
Các thực thể y sinh phổ biến: DNA, RNA, Cell line, Cell type, Gene… Disease (bệnh), Symptom (triệu chứng), Virus, Atom… = Kiểu hình(Phenotype), Gene, Bệnh (Disease) , Hóa chất (Chemical) Protein,
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: MộT Số TÀI NGUYÊN CHO NHẬN DẠNG THỰC THể Y SINH
- MộT Số TÀI NGUYÊN CHO NHậN DạNG THựC THể Y SINH TRẦN MAI VŨ
- NỘI DUNG Thực thể y sinh Một số kho dữ liệu về y sinh Một số công cụ nhận diện thực thể y sinh Kế hoạch tiếp theo
- Thực thể y sinh 3 Các thực thể y sinh phổ biến: Protein, DNA, RNA, Cell line, Cell type, Gene… Disease (bệnh), Symptom (triệu chứng), Virus, Atom… => Kiểu hình(Phenotype), Gene, Bệnh (Disease) , Hóa chất (Chemical)
- Thách thức 4 Thiếu quy ước đặc tên trong sinh học Sự đa dạng trong thuật ngữ: Dùng từ tiếng Anh: Vd: light, map, complement,…tên gene Sử dụng số: Vd: 9-cis retinoic acid Sử dụng các ký tự và mã: M(2)201 Sự lồng nhau giữa các tên: Vd: “[leukaemic[T [cell line]] Kit225]” Sự phối hợp: “B and T cells” Sự đồng âm Tính đa nghĩa Nhiều biến thể của một tên: Vd: “-150 CD28 response element (CD28RE)/AP-1 site” cũng là “-150 CD28RE/AP-1 site”.
- Phenotype Entity 5 Kiểu hình(Phenotype): Đặc tính ấn định bởi di truyền có thể quan sát được của một tế bào hoặc sinh vật [1] Tổ hợp của các đặc điểm quan sát được hoặc những đặc điểm của một sinh vật: như hình thái, sự phát triển, đặc tính sinh hóa hoặc sinh lý, vật hậu học (phenology), hành vi, và các sản phẩm của hành vi (chẳng hạn như tổ của một con chim).[2] Ví dụ: 4-5 finger syndactyly [1]. Strachan, T., Read, A.: Human Molecular Genetics, 3rd edn. Garland Science/Taylor & Francis Group (2003) [2]. http://en.wikipedia.org/wiki/Phenotype
- Pubmed 6 PubMed Central (Trung tâm lưu trữ báo điện tử về y sinh và khoa học đời sống của Viện Y học quốc gia Mỹ) PubMed cung cấp quyền truy cập miễn phí tới CSDL Medline. MEDLINE: là csdl thư mục hàng đầu của thư viện y khoa quốc gia Hoa Kỳ, gồm: - 4.800 nhan đề tạp chí về y khoa - 19 triệu tham chiếu (references) lưu trữ từ đầu thập niên 50’ đến nay.
- Pubmed
- MeSH MeSH(Medical Subject Heading): Tiêu đề y khoa là tập các từ vựng dùng để phân loại các bài báo trong Medline. Các từ vựng này được mô tả theo cấu trúc cây. Ví dụ: 21,973 mô tả Hàng nghìn tham chiếu chéo
- UMLS UMLS(Unified Medical Language System): bao gồm các cụm khái niệm y học cùng nghĩa(đồng nghĩa, biến thể của từ, từ trong các ngôn ngữ, từ viết tắt) Hơn 1.5 triệu từ tiếng Anh nằm trong hơn 60 nhóm và được tổ chức trong 775 nghìn khái niệm
- MedTag L. Smith và cộng sự. MedTag là CSDL kết hợp của 3 bộ MedPost: 6700 câu đã gắn nhãn từ loại (POSTagger chính xác 97.4%) GENETAG: 15000 câu đã gắn nhãn Gene và Protein. ABGene: 4000 câu đã gắn nhãn Gene và Protein
- GENIA 11 Junichi Tsujii (University of Tokyo) Genia Corpus 44 nhãn thực thể Genia Ontology Genia Tools GENIA Sentence Splitter: Tách câu (mô hình ME) GENIA Tagger: PosTag, NER, Shallow parsing
- CALBC Corpora CALBC (Collaborative Annotation of a Large Biomedical Corpus) Challenge task A: Named Entity Recognition Challenge task B: Concept identification
- CALBC Corpora CALBC-SSC-III-Small: 174,999 Medline abstracts, 2,548,900 annotations CALBC-SSC-III-Big: 714,283 Medline abstracts, 10,304,172 annotations 16 nhãn ngữ nghĩa và 133 nhãn con tương ứng UMLS
- Human Phenotype Ontology Là ontology về các kiểu hình trên người, phát triển dựa trên các thông tin từ kho dữ liệu OMIM (Online Mendelian Inheritance in Man) Gần 10 nghìn từ về kiểu hình trên người Gần 50 nghìn chú thích về sự di truyền bệnh
- Một số Corpora khác
- B. Settles (2004). Biomedical Named Entity Recognition Using Conditional Random Fields and Rich F . In Proceedings of the International Joint Workshop on Natural Language Processing in ABNER Biomedicine and its Applications (NLPBA), Geneva, Switzerland, pages 104-107. Tác giả Burr Settles http://pages.cs.wisc.edu/~bsettles/abner/ (Java) Sử dụng mô hình CRF(Mallet) và 2 loại đặc trưng chính: Chính tả: viết hoa, chữ số,… Ngữ nghĩa: Thêm đặc trưng lớp ngữ nghĩa của từ Ví dụ:
- Leaman, R. & Gonzalez G. (2008) BANNER: An executable survey of advances in biomedical named entity recog . Pacific Symposium on Biocomputing 13:652-663(2008) Banner Tác giả Bob Leaman và Graciela Gonzalez http://banner.sourceforge.net/ (Java) Sử dụng mô hình CRF Sử dụng thêm đặc trưng phân tích cú pháp ở mức sâu
- Banner
- Các loại đặc trưng 20 S SVM sh Dạng tự sy Nhãn cú pháp H HMM gn Chuỗi gene tr Luật C CRF wv Biến thể của từ ab Viết tắt M MEMM ln Độ dài từ ca Các thực thể khác lx Từ vựng gz Tra từ điển do Thông tin tài liệu af Các thông tin liên quan (ngram) po Nhãn từ loại pa Dấu ngoặc or Chính tả np Nhãn cụm danh từ pr Sử dụng các nhãn đã dữ đoán
CÓ THỂ BẠN MUỐN DOWNLOAD
-
QUẢN LÝ MÔI TRƯỜNG - NGHIÊN CỨU NÂNG CAO NĂNG LỰC
67 p | 985 | 444
-
Luận văn : ẢNH HƯỞNG CỦA MỘT SỐ NHÂN TỐ SINH THÁI ĐẾN CÂY HỌ SAO - DẦU (Dipterocarpaceae) TRONG KIỂU RỪNG KÍN THƯỜNG XANH VÀ NỬA RỤNG LÁ ẨM NHIỆT ĐỚI Ở ĐỒNG NAI part 3
17 p | 252 | 45
-
Quản lý tổng hợp vùng bờ ( Nguyến Bá Quý ) - Chương 7
0 p | 93 | 27
-
Giáo án hỗ trợ Sự phân bố khí áp. Một số loại gió chính
4 p | 183 | 8
-
Khí trơ nhân tạo đầu tiên
2 p | 86 | 5
-
Bước đầu khảo sát mật độ vi sinh vật trong nước sinh hoạt tại một số quận huyện trên địa bàn thành phố Hà Nội
4 p | 67 | 4
-
Một số giải pháp công nghệ khai thác tài nguyên nước phèn đồng bằng sông Cửu Long
3 p | 77 | 4
-
Sàng lọc một số chủng Trichoderman SP. đối kháng với Colletotrichum SP. gây bệnh thán thư trên cây ớt trồng ở Bình Dương
7 p | 43 | 4
-
Tổng quan một số phương pháp đánh giá chất lượng và rủi ro môi trường có thể ứng dụng cho vùng đới bờ Việt Nam
6 p | 83 | 3
-
Nghiên cứu tài nguyên khí hậu phục vụ cho việc quy hoạch một số cây công nghiệp dài ngày ở huyện A Lưới, tỉnh Thừa Thiên Huế
9 p | 63 | 3
-
Tìm hiểu nhận thức của người dân tái định cư đối với giá trị và sự biến đổi của các nguồn tài nguyên và đề xuất một số mô hình hệ kinh tế sinh thái thuộc phạm vi lưu vực hồ thủy điện Sơn La
11 p | 39 | 2
-
Nghiên cứu sử dụng chỉ số hạn palmer để nhận định diễn biến hạn vùng Đồng bằng Bắc Bộ
6 p | 58 | 2
-
Nghiên cứu quy trình nhân giống in vitro một số giống khoai sọ (Colocasia antiquorum)
10 p | 55 | 2
-
Dự báo áp lực sử dụng đến tài nguyên rừng và giải pháp quản lý rừng bảo tồn dựa vào cộng đồng
8 p | 80 | 2
-
Một số đặc điểm sinh sản của cá thát lát (Notopterus Notopterus) tại các lưu vực sông Nhật Lệ, tỉnh Quảng Bình
6 p | 28 | 2
-
Xác định một số yếu tố gây bệnh của vi khuẩn Escherichia coli gây tiêu chảy ở dê tại Thái Nguyên
6 p | 80 | 1
-
Nghiên cứu đánh giá hiện trạng hàm lượng một số kim loại nặng trong trầm tích sông Cầu đoạn chảy qua tỉnh Bắc Ninh
10 p | 33 | 1
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn