intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn Thạc sĩ Hệ thống thông tin: nghiên cứu dự đoán tác dụng phụ của thuốc từ y văn sử dụng mạng nơ-ron dựa trên cơ chế tập trung

Chia sẻ: Dopamine Grabbi | Ngày: | Loại File: PDF | Số trang:53

56
lượt xem
6
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong phạm vi khóa luận sẽ trình bày về mô hình mạng nơ-ron dựa trên cơ chế tập trung (attention-based neural networks) áp dụng vào việc dự đoán tác dụng phụ của thuốc sử dụng dữ liệu từ y văn. Kết quả thử nghiệm của khóa luận chỉ ra rằng mô hình ATT-RNN, ATT-GRU, ATT-LSTM hoạt động tốt hơn mô hình CNN khi không sử dụng các kỹ thuật attention và ATT-GRU đạt được điểm F1 trung bình tốt nhất là 0,6037 trên bộ thử nghiệm trong số các DNN được thử nghiệm.

Chủ đề:
Lưu

Nội dung Text: Luận văn Thạc sĩ Hệ thống thông tin: nghiên cứu dự đoán tác dụng phụ của thuốc từ y văn sử dụng mạng nơ-ron dựa trên cơ chế tập trung

  1. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ──────── * ─────── NGUYỄN THỊ QUYỀN NGHIÊN CỨU DỰ ĐOÁN TÁC DỤNG PHỤ CỦA THUỐC TỪ Y VĂN SỬ DỤNG MẠNG NƠ-RON DỰA TRÊN CƠ CHẾ TẬP TRUNG LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN HÀ NỘI 06 – 2021
  2. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ──────── * ─────── NGUYỄN THỊ QUYỀN NGHIÊN CỨU DỰ ĐOÁN TÁC DỤNG PHỤ CỦA THUỐC TỪ Y VĂN SỬ DỤNG MẠNG NƠ-RON DỰA TRÊN CƠ CHẾ TẬP TRUNG Ngành : Công nghệ thông tin Chuyên ngành : Hệ thống thông tin Mã số : 8480104.01 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Đặng Thanh Hải HÀ NỘI 06 – 2021 2
  3. LỜI CAM ĐOAN Tác giả xin cam đoan rằng luận văn thạc sĩ công nghệ thông tin “Dự đoán tác dụng phụ của thuốc từ y văn sử dụng mạng nơ ron dựa trên cơ chế tập trung” là công trình nghiên cứu của riêng tác giả, không sao chép lại của người khác. Trong toàn bộ nội dung của luận văn, những điều đã được trình bày hoặc là của chính cá nhân tác giả hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các nguồn tài liệu tham khảo đều có xuất xứ rõ ràng và hợp pháp. Tác giả xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan này. Hà Nội, ngày 30 tháng 06 năm 2021 Nguyễn Thị Quyền 3
  4. LỜI CẢM ƠN Trước tiên em xin dành lời cảm ơn chân thành và sâu sắc đến thầy giáo, TS. Đặng Thanh Hải – người đã hướng dẫn, khuyến khích, chỉ bảo và tạo cho em những điều kiện tốt nhất từ khi bắt đầu cho tới khi hoàn thành công việc của mình. Em xin dành lời cảm ơn chân thành tới các thầy cô giáo khoa Công nghệ thông tin, trường Đại học Công nghệ, ĐHQGHN đã tận tình đào tạo, cung cấp cho em những kiến thức vô cùng quý giá và đã tạo điều kiện tốt nhất cho em trong suốt quá trình học tập, nghiên cứu tại trường. Đồng thời em xin cảm ơn tất cả những người thân yêu trong gia đình cùng toàn thể bạn bè những người đã luôn giúp đỡ, động viên những khi vấp phải những khó khăn, bế tắc và giúp đỡ em hoàn thành luận văn này. Hà Nội, ngày 30 tháng 06 năm 2021 Nguyễn Thị Quyền 4
  5. MỤC LỤC LỜI CAM ĐOAN ................................................................................................. 3 LỜI CẢM ƠN....................................................................................................... 4 MỤC LỤC ............................................................................................................ 5 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .......................................... 7 DANH MỤC HÌNH VẼ ....................................................................................... 8 DANH MỤC BẢNG BIỂU .................................................................................. 9 MỞ ĐẦU ............................................................................................................ 10 CHƯƠNG 1: TỔNG QUAN VỀ TÁC DỤNG PHỤ CỦA THUỐC................. 12 1.1. Khái niệm ................................................................................................ 12 1.2. Hiện trạng ................................................................................................ 12 1.3. Hướng tiếp cận ........................................................................................ 13 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT................................................................... 16 2.1. Mạng nơ-ron nhân tạo ............................................................................. 16 2.1.1. Mạng nơ-ron tích chập (CNN) ......................................................... 17 2.1.2. Mạng nơ-ron hồi quy (RNN) ............................................................ 19 2.1.3. Mạng bộ nhớ dài – ngắn LSTM ....................................................... 21 2.1.4. Mạng GRU ....................................................................................... 22 2.2. Word Embedding .................................................................................... 24 2.3. Position Embedding ................................................................................ 25 2.4. Kỹ thuật attention .................................................................................... 25 CHƯƠNG 3: THỰC NGHIỆM DỰ ĐOÁN TÁC DỤNG PHỤ CỦA THUỐC TỪ Y VĂN SỬ DỤNG MẠNG NƠ-RON DỰA TRÊN CƠ CHẾ TẬP TRUNG ....... 27 3.1. Mô tả bài toán .......................................................................................... 27 3.2. Mô tả dữ liệu và các bước thực hiện ....................................................... 30 3.3. Cấu hình phần cứng ................................................................................. 38 3.4. Tham số cài đặt mô hình ......................................................................... 38 3.5. Phương pháp đánh giá ............................................................................. 38 3.6. Kết quả thử nghiệm ................................................................................. 39 5
  6. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ......................................................... 42 Kết luận .......................................................................................................... 42 Hướng phát triển tương lai ............................................................................. 42 TÀI LIỆU THAM KHẢO .................................................................................. 43 6
  7. DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Ký hiệu viết tắt Thuật ngữ đầy đủ Giải thích ADRs Drug side-effects/ adverse Tác dụng phụ/ phản ứng drug reactions có hại của thuốc ATT Attention mechanism Cơ chế tập trung/ Cơ chế chú ý CDRs Chemical-Disease Mối quan hệ giữa hóa chất Relations và bệnh CID Chemical-induced Disease Mối quan hệ của bệnh và hóa chất gây ra. DNN Deep neural networks Mạng nơ-ron sâu (DNNs) FFNN Feed forward neural Mạng nơ ron truyền thẳng network GloVe Global vector Mô hình vector toàn cục LSTM Long short term memory Mạng bộ nhớ dài ngắn NER Named entity recognition Nhận diện tên thực thể NLP Natural language Xử lý ngôn ngữ tự nhiên processing RNN Recurrent neural network Mạng nơ ron hồi quy 7
  8. DANH MỤC HÌNH VẼ Hình 2.1: Mô hình kiến trúc mạng nơ-ron [12] .................................................. 16 Hình 2.2: Cấu trúc điển hình của CNN giữa các lớp đầu vào và đầu ra [6]....... 18 Hình 2.3: Mô hình CNN cho trích xuất quan hệ [23] ........................................ 19 Hình 2.4: Mô hình RNN tổng quát [2] ............................................................... 20 Hình 2.5: Minh họa khối bộ nhớ với một ô nhớ của LSTM [2]. ........................ 22 Hình 2.6: Minh họa GRU ................................................................................... 23 Hình 2.7: Cơ chế tập trung dựa trên mạng RNN cho trích xuất quan hệ [16] ... 26 Hình 3.1: Minh họa bài toán trích xuất mối quan hệ giữa thuốc và bệnh .......... 28 Hình 3.2: Tổng quan kiến trúc chương trình ...................................................... 29 Hình 3.3: Cách tạo các thể hiện quan hệ từ các câu ........................................... 29 8
  9. DANH MỤC BẢNG BIỂU Bảng 3.1: Thống kê tập dữ liệu .......................................................................... 31 Bảng 3.2: Bảng cấu hình phần cứng................................................................... 38 Bảng 3.3: Các tham số được sử dụng ................................................................. 38 Bảng 3.4: Kết quả trung bình các thực nghiệm .................................................. 40 Bảng 3.5: Thống kê kết quả thực hiện luận văn với một số thuật toán khác ..... 40 9
  10. MỞ ĐẦU Trong y học, một tác dụng phụ là một tác dụng mà cho dù là hữu ích hay là bất lợi thì đều là thứ yếu so với dự định (ngoài ý muốn khi sử dụng thuốc). Phát triển thuốc là một quá trình phức tạp và khó để tạo ra một loại thuốc nhằm vào một bộ phận của cơ thể nhưng lại không ảnh hưởng đến các bộ phận khác. Tác dụng phụ bất lợi của thuốc là một vấn đề nghiêm trọng cấp bách về sức khỏe của con người cũng là trở ngại cho sự phát triển các loại thuốc có hiệu quả điều trị. Mặc dù có nhiều nỗ lực liên tục để xác định tác dụng phụ của thuốc trước đó, nhưng đây vẫn là một nhiệm vụ đầy thách thức. Hầu hết các tác dụng của thuốc đều được phát hiện nhờ sử dụng nguồn dữ liệu từ các báo cáo tự phát trong giai đoạn trước và sau bán hàng. Đây là một hạn chế rất lớn. Các công ty dược phẩm mặc dù họ có khả năng xác định và giải quyết các tác dụng phổ biến nhưng nhìn chung không khả thi để xác định hoặc dự đoán các tác dụng phụ nghiêm trọng hiếm gặp. Sự bùng nổ của tài liệu y sinh đã tạo nên một nguồn tri thức phong phú giúp con người khai thác được nhiều thông tin hữu ích chẳng hạn như dự đoán mối quan hệ trong y sinh bao gồm việc dự đoán tác dụng phụ của thuốc từ y văn. Nhờ đó khắc phục được rất nhiều hạn chế trong quá trình tìm ra tác dụng phụ của thuốc như trên. Các nghiên cứu truyền thống sử dụng dữ liệu từ y văn chủ yếu sử dụng các phương pháp học máy như support vector machine (SVM) đã hoạt động tương đối tốt trong thập kỷ qua. Tuy nhiên không tránh khỏi một số lỗi không mong muốn đặc biệt khi phải xử lý các câu dài và khả năng khái quát hóa từ vựng hạn chế cho những từ chưa được nhìn thấy. Ngược lại, các phương pháp dựa trên mạng nơ-ron (NN) là các phương pháp học biểu diễn tự động với nhiều cấp độ biểu diễn, có được bằng cách kết hợp các mô-đun đơn giản nhưng phi tuyến tính. Gần đây, các phương pháp tiếp cận học sâu (Deep learning) đã được nghiên cứu rộng rãi và đạt được hiệu suất tiên tiến trong các nhiệm vụ NLP khác nhau như nhận diện thực thể (NER) và trích xuất quan hệ (Relation extraction). Trong các bài toán về trích xuất quan hệ y sinh, các từ “trigger word” là những từ xuất hiện trong ngữ cảnh trực tiếp chỉ ra sự tồn tại của các quan hệ ngữ nghĩa, được sử dụng rộng rãi như là các đặc điểm đầu vào của các phương pháp khai thác văn bản khác nhau. Cơ chế tập trung được đề xuất từ trực giác của sự chú ý trực quan của con người để nhấn mạnh phần tương đối quan trọng của dữ liệu đầu vào và đã được chứng minh là cải thiện hiệu suất mô hình và nâng cao khả năng diễn giải mô hình thông qua việc kết hợp thông tin chú ý vào học sâu. 10
  11. Trong phạm vi khóa luận sẽ trình bày về mô hình mạng nơ-ron dựa trên cơ chế tập trung (attention-based neural networks) áp dụng vào việc dự đoán tác dụng phụ của thuốc sử dụng dữ liệu từ y văn. Kết quả thử nghiệm của khóa luận chỉ ra rằng mô hình ATT-RNN, ATT-GRU, ATT-LSTM hoạt động tốt hơn mô hình CNN khi không sử dụng các kỹ thuật attention và ATT-GRU đạt được điểm F1 trung bình tốt nhất là 0,6037 trên bộ thử nghiệm trong số các DNN được thử nghiệm. Quan sát kết quả cũng cho thấy cơ chế tập trung áp dụng hiệu quả hơn khi kết hợp với GRU và LSTM hơn so với khi áp dụng với RNN truyền thống. Luận văn có bố cục gồm 3 chương chính: Chương 1: Tổng quan về tác dụng phụ của thuốc Chương này giới thiệu tổng quan về tác dụng phụ của thuốc và hướng tiếp cận sử dụng phương pháp học máy. Chương 2: Cơ sở lý thuyết Chương này đi sâu tìm hiểu về mô hình mạng nơ ron nhân tạo và mô hình mạng nơ-ron dựa trên cơ chế tập trung sẽ áp dụng trong khóa luận. Chương 3: Thực nghiệm Dự đoán tác dụng phụ của thuốc từ y văn sử dụng mạng nơ ron dựa trên cơ chế tập trung. Chương này sẽ trình bày việc áp dụng mô hình mạng nơ-ron dựa trên cơ chế tập trung áp dụng trong bài toán dự đoán tác dụng phụ của thuốc và các kết quả thực nghiệm. Cuối cùng là một số kết luận và hướng phát triển trong tương lai 11
  12. CHƯƠNG 1: TỔNG QUAN VỀ TÁC DỤNG PHỤ CỦA THUỐC 1.1. Khái niệm Dưới đây là một số thuật ngữ thường được sử dụng để mô tả các tác dụng phụ của việc điều trị bằng thuốc theo Pharmacology Education Project (PEP) được phát triển bởi liên minh quốc tế về dược học cơ bản và lâm sàng (IUPHAR) [25]: - Phản ứng có hại của thuốc (Adverse Drug Reaction - ADR) là phản ứng không mong muốn hoặc có hại xảy ra sau khi sử dụng thuốc hoặc kết hợp thuốc trong điều kiện sử dụng bình thường và được nghi ngờ có liên quan đến thuốc. ADR thường sẽ yêu cầu ngừng thuốc hoặc giảm liều. - Tác dụng phụ (side-effect) là bất kỳ tác dụng nào gây ra bởi một loại thuốc khác với tác dụng điều trị dự kiến, cho dù có lợi, trung tính hay có hại. Kể từ năm 2012, định nghĩa về ADR đã bao gồm các phản ứng xảy ra do lỗi, sử dụng sai hoặc lạm dụng và các phản ứng nghi ngờ đối với các loại thuốc không có giấy phép hoặc được sử dụng ngoài nhãn ngoài việc sử dụng thuốc được phép với liều lượng bình thường [8]. Thông thường, ADR được phân thành hai loại [8]: - Phản ứng loại A - đôi khi được gọi là phản ứng tăng cường - 'phụ thuộc vào liều lượng' và có thể dự đoán được dựa trên dược lý của thuốc. - Phản ứng loại B - phản ứng kỳ lạ - mang tính đặc trưng và không thể dự đoán được trên cơ sở dược lý học. 1.2. Hiện trạng Phản ứng có hại của thuốc là một vấn đề sức khỏe cấp bách và cũng là một trở ngại cho việc phát triển các loại thuốc có hiệu quả điều trị. Được biết, khoảng 7000 ca tử vong do ADRs gây ra mỗi năm trong một nghiên cứu được thực hiện trong năm 2000 [13]. Do đó, việc giám sát thuốc sau bán trên thị trường được yêu cầu để xác định các ADR tiềm ẩn như vậy sau khi sản xuất thuốc. Hiện tại, hầu hết các hoạt động giám sát thuốc sau bán trên thị trường đều dựa vào cơ sở dữ liệu hệ thống báo cáo tự phát thụ động, chẳng hạn như Hệ thống báo cáo sự kiện có hại của Cơ quan Quản lý Dược phẩm Liên bang (FAERS) của Mỹ [13], các hệ thống báo cáo tự phát như Chương trình Thẻ Vàng (Yellow Card Scheme) ở Anh được vận hành bởi Cơ quan Quản lý Thuốc và Sản phẩm Chăm sóc sức khỏe (MHRA) và Ủy ban Thuốc cho Người (CHM) [8]. Thông qua các báo cáo này, chương trình thu thập dữ liệu về các ADR nghi ngờ liên quan đến tất cả các loại 12
  13. thuốc và vắc xin được cấp phép và không được cấp phép, bao gồm cả những loại thuốc được cấp theo đơn hoặc mua không cần kê đơn. Để một báo cáo có hiệu lực, chỉ cần có bốn mục thông tin: bệnh nhân, phản ứng, sản phẩm thuốc bị nghi ngờ và người báo cáo. Tuy nhiên, các báo cáo viên được khuyến khích cung cấp càng nhiều thông tin càng tốt, tức là cung cấp thêm dữ liệu và bối cảnh lâm sàng cho người đánh giá. Hệ thống như vậy có thể chậm và không hiệu quả. Nghiên cứu cho thấy 94% ADR được báo cáo thiếu ở các hệ thống chính thức [20]. Các loại thuốc đặc biệt liên quan đến ADR bao gồm thuốc chống kết tập tiểu cầu, thuốc chống đông máu, thuốc độc tế bào, thuốc ức chế miễn dịch, thuốc lợi tiểu, thuốc chống đái tháo đường và thuốc kháng sinh. ADRs gây tử vong thường là do xuất huyết, nguyên nhân phổ biến nhất được nghi ngờ là do thuốc chống đông máu được sử dụng đồng thời với thuốc chống viêm không steroid (NSAID) [8]. Dự đoán ADRs hiệu quả là điều cần thiết để cải thiện chăm sóc sức khỏe bệnh nhân và thúc đẩy quá trình phát triển thuốc. Các kỹ thuật tính toán khác nhau đã được sử dụng trong thời gian gần đây để tìm hiểu cơ chế phản ứng của thuốc. Khi lĩnh vực tin sinh học đang phát triển nhanh chóng, người ta có thể thực hiện nhiều khám phá mới về thuốc mới. Dự đoán tác dụng phụ của thuốc là một bước tiến quan trọng, nhiều thú vị. Một số nghiên cứu gần đây [5], [21] tập trung vào ADR đề cập đến việc trích xuất trên văn bản y sinh. Nghiên cứu của tác giả được thực hiện trên kho ngữ liệu văn bản y sinh PubMed. 1.3. Hướng tiếp cận Tóm lược tri thức (Abstract Knowledge) là một hình thức để hiểu thế giới, cung cấp nhận thức và trí thông minh ở cấp độ con người cho trí thông minh nhân tạo trong thế hệ tiếp theo. Một trong những thể hiện của tri thức là quan hệ ngữ nghĩa giữa các thực thể. Một cách hiệu quả để tự động thu nhận tri thức quan trọng này, được gọi là trích xuất quan hệ (Relation Extraction - RE), một nhiệm vụ của trích xuất thông tin, đóng một vai trò quan trọng trong Xử lý ngôn ngữ tự nhiên (NLP). Mục đích của nó là xác định các quan hệ ngữ nghĩa giữa các thực thể từ văn bản ngôn ngữ tự nhiên [7]. Luận văn này tập trung vào bài toán trích xuất quan hệ trong lĩnh vực y sinh với đầu vào là dữ liệu từ các văn bản y sinh, đầu ra cần xác định được liệu một cặp thực thể ứng viên trong một văn bản hoặc trong một câu có mối quan hệ ngữ nghĩa hay không? Một số mô hình trích xuất quan hệ truyền thống sử dụng các phương pháp thống kê như máy vectơ hỗ trợ (Support Vector Machine - SVM) [1] và trường 13
  14. ngẫu nhiên có điều kiện (Conditional Random Field - CRF) [18]. Với sự phát triển mạnh mẽ của công nghệ học sâu, các mô hình mạng nơ-ron đã đạt được hiệu suất hiện đại trên nhiều tác vụ gắn nhãn theo trình tự như nhận dạng tên thực thể (NER) [17] và gắn thẻ từ loại (Part-Of-Speech - POS) [3] . Các mô hình học sâu hiện tại thường sử dụng word embeddings, cho phép chúng học các cách biểu diễn tương tự cho các từ tương tự về mặt ngữ nghĩa. Mặc dù đây là một cải tiến lớn so với các mô hình truyền thống, nhưng vẫn còn một số lỗi cần được giải quyết. Vấn đề khó khăn nhất là làm thế nào để đối phó với các từ “không nằm trong tập từ vựng có sẵn” (Out-Of-Vocabulary - OOV). Trong các văn bản y sinh như các tóm tắt Pubmeds, cách viết không chính thức hoặc mô tả kỹ thuật quá mức có thể khiến một số lượng lớn các từ OOV xuất hiện. Bởi vì những từ này không có từ tương ứng, chúng sẽ được khởi tạo ngẫu nhiên cho một số giá trị cụ thể. Điều này sẽ gây ra nhiều phân loại sai của các từ OOV đó trong tập dữ liệu. Luận văn này đã tận dụng lợi thế của việc biểu diễn cấp độ từ và ký tự của một token, do đó các từ OOV đó có thể được gắn nhãn tốt hơn do bổ sung các biểu diễn ký tự chi tiết. Ngoài ra, luận văn cũng áp dụng cơ chế tập trung cho phép mô hình tự động và linh hoạt để học đặc trưng nào quan trọng hơn. Luận văn cũng sử dụng đầu ra trung gian của mô hình như một bộ phân loại phụ trợ để cải thiện hiệu suất dự đoán của mô hình. Để xác thực tính hiệu quả của mô hình, luận văn thực hiện thử nghiệm trên tập dữ liệu của PubMed. Cơ chế tập trung [28], được đề xuất từ trực giác về sự chú ý trực quan của con người để nhấn mạnh phần tương đối quan trọng của dữ liệu đầu vào, đã được chứng minh là cải thiện hiệu suất mô hình và tăng cường khả năng diễn giải mô hình thông qua việc kết hợp thông tin tâp trung vào việc học sâu [16]. Ở đây, luận văn trình bày cách tiếp cận bằng cách sử dụng các mạng nơ ron dựa trên cơ chế tập trung (ATT-) và chứng minh sức mạnh của các mô hình ATT về hiệu suất bằng cách so sánh với các phương pháp học sâu khác và khả năng hiểu của chúng bằng cách phân tích trọng số tập trung ở cấp độ từ. Nhìn chung, mạng nơ ron sâu (DNN) đã được sử dụng rộng rãi trong các nhiệm vụ dự đoán, gán nhãn, trích xuất quan hệ với nhiều mô hình khác nhau. Ví dụ: Đề xuất mạng nơ-ron tích chập (CNN) sử dụng position embedding để trích xuất quan hệ [32], sử dụng mô hình bộ nhớ dài - ngắn (LSTM) cùng tính phụ thuộc và position embedding [29] đã cho thấy chiến lược học tập vượt trội hơn đáng kể so với các phương pháp mạng nơ-ron hồi quy (RNN) sử dụng các tính năng mở rộng bao gồm POS, NER và WordNet. 14
  15. Trong lĩnh vực y sinh, các nhiệm vụ trích xuất quan hệ khác nhau như tương tác protein- protein, tương tác thuốc - thuốc và tương tác bệnh - hóa học đã được nghiên cứu. Các phương pháp dựa trên học máy khác nhau bao gồm các phương pháp học máy có giám sát, phân cụm mẫu và mô hình khai phá chủ đề đã được sử dụng trước khi các mô hình học sâu trở nên chiếm ưu thế trong những tiến bộ gần đây. Bên cạnh các mô hình DNN thông thường, sự phụ thuộc và thông tin cấp độ ký tự đã được sử dụng để cải thiện, nâng cao hiệu quả của các mô hình. Gần đây, cơ chế tập trung trên các mô hình DNN đã cho thấy sự hứa hẹn trong các nhiệm vụ NLP khác nhau, chẳng hạn như dịch máy [16], trả lời câu hỏi [26], phân loại tài liệu [30] cũng như trích xuất quan hệ. Luận văn này trình bày nghiên cứu mạng nơ ron với cơ chế tập trung cho nhiệm vụ trích xuất tác dụng phụ của thuốc và chứng minh tính hiệu quả của cơ chế tập trung trong việc lựa chọn thông tin mức độ quan trọng. 15
  16. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1. Mạng nơ-ron nhân tạo Mạng nơ-ron nhân tạo (Artificial Neural Network - ANN) là một tập con của học máy và là trung tâm của các thuật toán học sâu. Tên và cấu trúc của chúng được lấy cảm hứng từ não người, bắt chước cách các tế bào thần kinh sinh học truyền tín hiệu cho nhau. Mạng nơ ron nhân tạo (ANN) bao gồm một lớp nút, chứa một lớp đầu vào (Input layer), một hoặc nhiều lớp ẩn (Hidden layer) và một lớp đầu ra (Output layer). Mỗi nút, hoặc mỗi nơron nhân tạo, kết nối với một nút khác và có trọng số và ngưỡng liên quan. Những trọng số này có được bằng cách học hỏi hoặc điều chỉnh từ một tập hợp các mẫu đào tạo [12]. Nếu đầu ra của bất kỳ nút riêng lẻ nào vượt quá giá trị ngưỡng được chỉ định, nút đó sẽ được kích hoạt, gửi dữ liệu đến lớp tiếp theo của mạng. Nếu không, không có dữ liệu nào được chuyển đến lớp tiếp theo của mạng. Từ “ẩn” có nghĩa là chúng ta có thể quan sát đầu vào và đầu ra trong khi cấu trúc kết nối chúng vẫn bị ẩn. Kiến trúc của mạng nơ ron nhân tạo được minh họa như Hình 2.1: Mô hình kiến trúc mạng nơ-ron [12]. Trong đó: - x1…xn là các đầu vào của nơ-ron. - W0…Wn là các trọng số. Hình 2.1: Mô hình kiến trúc mạng nơ-ron [12] Mạng nơ-ron dựa trên dữ liệu đào tạo để tìm hiểu và cải thiện độ chính xác của chúng theo thời gian. Hầu hết các mạng nơ-ron sâu đều truyền thẳng, có nghĩa là chúng chỉ chạy theo một hướng, từ đầu vào đến đầu ra. Tuy nhiên, chúng ta cũng có thể đào tạo 16
  17. mô hình của mình thông qua lan truyền ngược (backpropagation); nghĩa là di chuyển theo hướng ngược lại từ đầu ra đến đầu vào. Backpropagation cho phép chúng ta tính toán và quy lỗi liên quan đến mỗi nơ-ron, cho phép chúng ta điều chỉnh các tham số của các mô hình một cách thích hợp. Mạng nơron có thể được phân thành nhiều loại khác nhau, được sử dụng cho các mục đích khác nhau. Mặc dù đây không phải là danh sách đầy đủ các loại, nhưng bên dưới sẽ đại diện cho các loại mạng nơ-ron phổ biến nhất mà chúng ta sẽ gặp trong các trường hợp sử dụng phổ biến: Perceptron là mạng nơ-ron lâu đời nhất, được tạo ra bởi Frank Rosenblatt vào năm 1958 [14]. Nó là dạng đơn giản nhất của mạng nơ-ron, có thể có nhiều đầu vào và duy nhất một đầu ra. Các mạng nơ-ron truyền thẳng hoặc các perceptron nhiều lớp (MLP): Bao gồm một lớp đầu vào, một hoặc nhiều lớp ẩn và một lớp đầu ra. Dữ liệu thường được đưa vào các mô hình này để đào tạo chúng và chúng là nền tảng cho thị giác máy tính, xử lý ngôn ngữ tự nhiên và các mạng nơ-ron khác. Mạng nơ-ron tích chập (CNN) tương tự như mạng truyền thẳng, nhưng chúng thường được sử dụng để nhận dạng hình ảnh, nhận dạng mẫu và thị giác máy tính. Các mạng này khai thác các nguyên tắc từ đại số tuyến tính, đặc biệt là phép nhân ma trận, để xác định các mẫu trong một hình ảnh. Mạng nơ-ron hồi quy (RNN) được xác định bởi các vòng lặp phản hồi của chúng. Các thuật toán học tập này chủ yếu được tận dụng khi sử dụng dữ liệu chuỗi thời gian để đưa ra dự đoán về kết quả trong tương lai, chẳng hạn như dự đoán thị trường chứng khoán hoặc dự báo bán hàng. 2.1.1. Mạng nơ-ron tích chập (CNN) Giống như các mạng nơ-ron khác, CNN bao gồm một lớp đầu vào, một lớp đầu ra và nhiều lớp ẩn ở giữa. Các lớp ẩn thực hiện các thao tác làm thay đổi dữ liệu với mục đích học các đặc trưng cụ thể của dữ liệu. Ba trong số các lớp phổ biến nhất là: lớp tích chập (convolution), lớp kích hoạt (activation) hoặc lớp kích hoạt phi tuyến ReLU (Rectified Linear Unit) và lớp tổng hợp (pooling) ngoài ra còn có lớp kết nối đầy đủ (fully-connected). Mô hình CNN bao gồm một tập hợp hữu hạn các lớp xử lý có thể học các dữ liệu đầu vào có các đặc trưng khác nhau (ví dụ: hình ảnh) với nhiều cấp độ trừu tượng. Các lớp bắt đầu học và phân tích các đặc trưng cấp cao (với độ trừu tượng thấp hơn), và các lớp sâu hơn học và cắt 17
  18. bỏ các đặc trưng cấp thấp (với độ trừu tượng cao hơn). Cấu trúc điển hình của CNN được thể hiện trong hình 2.2 [6], trong đó có: Hình 2.2: Cấu trúc điển hình của CNN giữa các lớp đầu vào và đầu ra [6]. Lớp tích chập (convolution layer): Lớp tích chập là thành phần quan trọng nhất của bất kỳ kiến trúc CNN nào. Nó chứa một tập hợp các hạt nhân tích chập (Convolutional kernels) (còn được gọi là bộ lọc), được đối chiếu với hình ảnh đầu vào (số liệu N chiều) để tạo ra một bản đồ tính năng đầu ra. Một hạt nhân có thể được mô tả như một mạng lưới các giá trị hoặc số rời rạc, trong đó mỗi giá trị được gọi là trọng số của hạt nhân này. Trong khi bắt đầu quá trình huấn luyện của một mô hình CNN, tất cả các trọng số của nhân được gán với các số ngẫu nhiên (các phương pháp tiếp cận khác nhau cũng có sẵn ở đó để khởi tạo các trọng số). Sau đó, với mỗi lượt đào tạo, các trọng số được điều chỉnh và hạt nhân được học để trích xuất các đặc điểm có ý nghĩa. Lớp lấy mẫu (Pooling Layer): Các lớp lấy mẫu được sử dụng để lấy mẫu phụ bản đồ các đặc trưng (được tạo ra sau các hoạt động tích chập), tức là nó lấy bản đồ đặc trưng có kích thước lớn hơn và thu nhỏ chúng thành bản đồ đặc trưng có kích thước thấp hơn (hoặc thông tin) trong mỗi bước lấy mẫu. Hoạt động lấy mẫu được thực hiện bằng cách xác định kích thước vùng được lấy mẫu và bước của hoạt động, tương tự như hoạt động tích chập. Có nhiều loại kỹ thuật lấy mẫu khác nhau được sử dụng trong các lớp lấy mẫu khác nhau như lấy mẫu tối đa, lấy mẫu tối thiểu, lấy mẫu trung bình, v.v. Hạn chế chính của lớp lấy mẫu là nó đôi khi làm giảm hiệu suất tổng thể của CNN. Lý do đằng sau điều này là lớp lấy mấu giúp CNN tìm xem một đặc trưng cụ thể có xuất hiện trong hình ảnh đầu vào đã cho hay không mà không cần quan tâm đến vị trí chính xác của đặc trưng đó. Lớp kết nối đầy đủ (Fully Connected (FC) Layer): Thông thường, lớp cuối cùng của mọi kiến trúc CNN (được sử dụng để phân lớp) bao gồm các lớp được kết nối chặt chẽ với nhau, trong đó mỗi nơ-ron bên trong một lớp được kết nối với mỗi nơ-ron từ lớp trước đó. Lớp cuối cùng của các lớp FC được sử dụng làm lớp đầu ra (bộ phân lớp) của kiến trúc CNN. Các lớp FC là loại mạng nơ-ron nhân tạo chuyển tiếp (feed-forward artificial neural network) và nó tuân theo nguyên tắc của mạng nơ-ron perceptron nhiều lớp truyền thống (MLP). Đầu vào lớp FC từ lớp lấy mẫu hoặc lớp tích chập cuối cùng, ở dạng một tập hợp các chỉ số (bản đồ 18
  19. đặc trưng) và các chỉ số đó được làm phẳng để tạo ra một véc tơ và véc tơ này sau đó được đưa vào lớp FC để tạo ra đầu ra cuối cùng của CNN. Để chứng minh tính hiệu quả của mô hình ATT do luận văn đề xuất, trước tiên tác giả đã phát triển một mô hình trích xuất quan hệ sử dụng CNN làm đường cơ sở, đây là một trong những mô hình DNN được sử dụng rộng rãi nhất. Mô hình CNN để trích xuất quan hệ được xây dựng theo Zeng và các cộng sự [32]. Kiến trúc mô hình được thể hiện trong Hình 2.3: Mô hình CNN cho trích xuất quan hệ [23]. Lớp tích chập có thể nắm bắt thông tin ngữ cảnh của các bộ lọc có độ dài bộ lọc được xác định trước. Các bộ lọc tích chập được mong đợi sẽ tạo ra các đặc trưng cục bộ cấp cao từ các biểu diễn vectơ đầu vào. Đầu ra của lớp tích chập sau đó được chuyển tiếp đến lớp Global Max-pooling, nơi các giá trị lớn nhất của mỗi đầu ra bộ lọc được tổng hợp và nối để phân loại quan hệ. Hình 2.3: Mô hình CNN cho trích xuất quan hệ [23] 2.1.2. Mạng nơ-ron hồi quy (RNN) Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) là một loại mạng nơ-ron nhân tạo sử dụng dữ liệu tuần tự hoặc dữ liệu chuỗi thời gian (Time-series Data). Các thuật toán học sâu này thường được sử dụng cho các vấn đề thứ tự hoặc thời gian, chẳng hạn như dịch máy, xử lý ngôn ngữ tự nhiên (NLP), nhận dạng giọng nói và chú thích hình ảnh; chúng được tích hợp vào các ứng dụng phổ 19
  20. biến như tìm kiếm bằng giọng nói và Google Dịch. Giống như mạng nơ-ron truyền thẳng và tích chập (CNN), mạng nơ-ron hồi quy sử dụng dữ liệu huấn luyện để học. Hình 2.4: Minh họa mô hình mạng nơ-ron hồi quy [2]. Chúng khác mạng nơ- ron khác bởi “bộ nhớ” khi chúng lấy thông tin từ các đầu vào trước đó để tác động đến đầu vào và đầu ra hiện tại. Trong khi các mạng nơron sâu truyền thống giả định rằng đầu vào và đầu ra là độc lập với nhau, đầu ra của mạng nơron hồi quy phụ thuộc vào các phần tử trước đó trong chuỗi. Một đặc điểm khác của mạng hồi quy là chúng chia sẻ các tham số trên mỗi lớp của mạng. Trong khi các mạng truyền thẳng có trọng số khác nhau trên mỗi nút, các mạng nơ-ron hồi quy chia sẻ cùng một trọng số trong mỗi lớp của mạng. Điều đó nói rằng, các trọng số này vẫn được điều chỉnh thông qua các quá trình nhân lan truyền ngược (backpropagation) và giảm độ dốc (gradient descent) để tạo điều kiện cho việc học củng cố. Mạng thần kinh hồi quy tận dụng thuật toán lan truyền ngược qua thời gian (Backpropagation through time - BPTT) để xác định độ dốc, hơi khác so với lan truyền ngược truyền thống vì nó dành riêng cho dữ liệu chuỗi. Các nguyên tắc của BPTT cũng giống như lan truyền ngược truyền thống, trong đó mô hình tự đào tạo bằng cách tính toán các lỗi từ lớp đầu ra đến lớp đầu vào của nó. Các tính toán này cho phép chúng ta điều chỉnh và lắp các thông số của mô hình một cách hợp lý. BPTT khác với cách tiếp cận truyền thống ở chỗ BPTT tính tổng các lỗi tại mỗi bước thời gian trong khi các mạng chuyển tiếp cấp dữ liệu không cần tính tổng các lỗi vì chúng không chia sẻ các tham số trên mỗi lớp. Hình 2.4: Mô hình RNN tổng quát [2] 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2