ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

──────── * ───────

NGUYỄN ĐỨC ĐÔNG

DỰ ĐOÁN TÁC DỤNG PHỤ CỦA THUỐC TỪ Y VĂN

SỬ DỤNG MÔ HÌNH LAI DỰA TRÊN MẠNG NƠ RON

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

HÀ NỘI 06 – 2021

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

──────── * ───────

NGUYỄN ĐỨC ĐÔNG

DỰ ĐOÁN TÁC DỤNG PHỤ CỦA THUỐC TỪ Y VĂN

SỬ DỤNG MÔ HÌNH LAI DỰA TRÊN MẠNG NƠ RON

NGÀNH : CÔNG NGHỆ THÔNG TIN

CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN

MÃ SỐ : 8480104.01

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. ĐẶNG THANH HẢI

HÀ NỘI 06 – 2021

2

LỜI CAM ĐOAN

Với mục đích học tập, nghiên cứu để nâng cao kiến thức và trình độ chuyên

môn nên tôi đã làm luận văn này một cách nghiêm túc và hoàn toàn trung thực.

Trong luận văn tôi có sử dụng một số tài liệu tham khảo của một số tác giả. Tôi

đã chú thích và nêu ra trong phần tài liệu tham khảo ở cuối luận văn.

Tôi xin cam đoan và chịu trách nhiệm về nội dung và sự trung thực trong luận

văn tốt nghiệp Thạc sĩ của mình.

Hà Nội, ngày 20 tháng 06 năm 2021

Nguyễn Đức Đông

3

LỜI CẢM ƠN

Lời đầu tiên, tôi xin chân thành cảm ơn các thầy cô giáo trong trường Đại Học Công Nghệ - Đại học Quốc Gia Hà Nội, đặc biệt là các thầy cô của khoa Công Nghệ Thông Tin đã truyền đạt cho tôi những kiến thức, kinh nghiệm vô cùng quý báu trong suốt thời gian học tập tại trường.

Tôi xin gửi lời cảm ơn đến TS. Đặng Thanh Hải – giảng viên khoa Công Nghệ Thông tin – Trường Đại học Công Nghệ đã tận tình giúp đỡ và hướng dẫn tận tình trong suốt quá trình làm luận văn.

Cuối cùng, tôi xin được cảm ơn đến gia đình, bạn bè đã động viên, đóng góp ý

kiến và giúp đỡ trong quá trình nghiên cứu và hoàn thành luận văn.

Do thời gian, kiến thức và kinh nghiệm của tôi còn hạn chế nên khóa luận không thể tránh khỏi những sai sót. Tôi hy vọng sẽ nhận được những ý kiến nhận xét, góp ý của các thầy cô giáo và các bạn để đồ án được hoàn hiện hơn.

Tôi xin chân thành cảm ơn!

Hà Nội, ngày 20 tháng 06 năm 2021

Nguyễn Đức Đông

4

MỤC LỤC

LỜI CAM ĐOAN ................................................................................................. 3

LỜI CẢM ƠN....................................................................................................... 4

MỤC LỤC ............................................................................................................ 5

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .......................................... 7

DANH MỤC HÌNH VẼ ....................................................................................... 8

DANH MỤC BẢNG BIỂU .................................................................................. 9

MỞ ĐẦU ............................................................................................................ 10

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT................................................................... 12

1.1. THUỐC VÀ QUY TRÌNH PHÁT TRIỂN THUỐC .............................. 12

1.1.1. Quy trình phát triển thuốc (Drug development process) ................. 12

1.1.2. Tác dụng phụ của thuốc ................................................................... 14

1.2. KHAI PHÁ DỮ LIỆU VÀ CÁC THUẬT NGỮ LIÊN QUAN .............. 15

1.2.1. Định nghĩa về khai phá dữ liệu ........................................................ 15

1.2.2. Bài toán phân lớp dữ liệu ................................................................. 15

1.2.3. Học sâu và mạng nơ ron ................................................................... 16

1.2.4. Đánh giá mô hình phân lớp .............................................................. 20

CHƯƠNG 2: DỰ ĐOÁN TÁC DỤNG PHỤ CỦA THUỐC ............................ 21

2.1. Bài toán dự đoán tác dụng phụ của thuốc từ y văn ................................ 21

2.1.1. Bài toán nhận dạng thực thể bệnh lý và thực thể thuốc (Named Entity Recognition – NER) [11] ................................................................ 21

2.1.2. Bài toán trích xuất mối quan hệ bệnh lý do thuốc gây ra (Chemical- Induced Disease – CID) ............................................................................. 22

2.2. Bộ dữ liệu BioCreative V CDR ............................................................... 24

2.2.1. Giới thiệu về Pubmed ....................................................................... 24

2.2.2. Dữ liệu quan hệ thuốc và bệnh - BioCreative V CDR ..................... 24

2.2.3. Cấu trúc kho dữ liệu BioCreative V CDR ....................................... 25

2.2.4. Cách thức xử lý dữ liệu BioCreative V CDR làm đầu vào cho bài toán trích xuất quan hệ thuốc và bệnh lý ................................................... 28

2.3. Mô hình lai dựa trên mạng nơ ron ........................................................... 31

5

2.3.1. Mô hình lai dựa trên mạng nơ ron ................................................... 31

2.3.2. Word embedding .............................................................................. 33

2.3.3. Position embedding .......................................................................... 34

2.3.4. Word relation embedding ................................................................. 34

CHƯƠNG 3: THỰC NGHIỆM VÀ KẾT LUẬN .............................................. 36

3.1. Cài đặt thực nghiệm ................................................................................. 36

3.1.1. Cách thức thực hiện ......................................................................... 36

3.1.2. Các tham số thiết lập mô hình .......................................................... 37

3.2. Thử nghiệm ............................................................................................. 38

3.2.1. Cấu hình phần cứng ......................................................................... 38

3.2.2. Kết quả thực hiện khi cho mô hình học và kiểm tra trên tập dữ liệu test .............................................................................................................. 38

3.3. Đánh giá................................................................................................... 40

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ......................................................... 41

TÀI LIỆU THAM KHẢO .................................................................................. 42

6

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Ký hiệu viết tắt Thuật ngữ đầy đủ Giải thích

ADR Adverse drug reaction Tác dụng phụ của thuốc

AI Artificial Intelligence Trí tuệ nhân tạo

CDR Chemical-Disease Relations Mối quan hệ giữa bệnh lý và thuốc

CID Chemical-Induced Disease Bệnh lý do thuốc gây ra

CNN Convolutional neural network Mạng nơ ron tích chập

DL Deep Learning Học sâu

DNN Deep Neural Networks Mạng nơ ron sâu

LSTM Long Short-Term Memory Mô hình bộ nhớ ngắn hạn

ML Machine Learning Học máy

Center for NCBI National Biotechnology Information Trung tâm quốc gia về thông tin công nghệ sinh học

NER Named Entity Recognition Nhận dạng thực thể

of NLM Thư viện Quốc gia Hoa kỳ U.S National Library Medicine

RNN Recurrent neural network Mạng nơ ron hồi quy

SDP Shortest Dependency Path Dường dẫn phụ thuộc ngắn nhất

WHO World Health Organization Tổ chức y tế thế giới

XML Extensible Markup Language Ngôn ngữ đánh dấu có thể mở rộng

7

DANH MỤC HÌNH VẼ

Hình 1.1 – Quy trình nghiên cứu thuốc [02] ...................................................... 13

Hình 1.2 – Mối quan hệ giữa trí tuệ nhân tạo, học máy, học sâu [01] ............... 17

Hình 1.3 – Cấu trúc một nơ ron [14] .................................................................. 18

Hình 1.4 – Mô hình mạng nơ ron tích chập [14] ................................................ 18

Hình 1.5 – Mạng nơ ron hồi quy hai chiều [14] ................................................. 19

Hình 2.1 – Dữ liệu định dạng BioC của BioCreative V CDR ........................... 27

Hình 2.2 – Dữ liệu định dạng PubTator của BioCreative V CDR ..................... 28

Hình 2.3 – Biểu diễn các thực thể thuốc và bệnh lý được nhận dạng trong y văn và các cặp quan hệ thuốc và bệnh lý được phát hiện trong văn bản trên dữ liệu BioCreative V CDR ............................................................................................ 30

Hình 2.4 – Mô hình thuật toán lai dựa trên mạng nơ ron tích chập và hồi quy [20] ..................................................................................................................... 32

Hình 2.5 – Đồ thị quan hệ phụ thuộc và đồ thị quan hệ phụ thuộc tối thiểu [20] ............................................................................................................................ 35

Hình 3.1 – Cách thức thực hiện dự đoán tác dụng phụ của thuốc ...................... 36

Hình 3.2 – Đồ thị biểu diễn độ chính xác trong quá trình học của thuật toán ... 39

8

DANH MỤC BẢNG BIỂU

Bảng 1.1 – Các giai đoạn phát triển thuốc [16] .................................................. 14

Bảng 1.1 – Phân loại các tác dụng phụ khi sử dụng thuốc [13] ......................... 15

Bảng 2.1 – Bảng mô tả đầu vào và đầu ra đối với việc nhận dạng thực thể bệnh lý và thực thể thuốc ............................................................................................ 21

Bảng 2.2 – Bảng độ đo với các phương pháp nhận dạng thực thể bệnh lý và thực thể thuốc [11] .............................................................................................. 22

Bảng 2.3 – Bảng mô tả đầu vào và đầu ra của việc trích xuất mối quan hệ giữa thuốc và bệnh ...................................................................................................... 22

Bảng 2.4 – Cấu trúc dữ liệu BioCreative V CDR .............................................. 25

Bảng 2.5 – So sánh dữ liệu BioCreative V CDR với các nguồn dữ liệu khác ... 25

Bảng 2.6 – Kết quả đầu ra của quá trình tiền xử lý dữ liệu BioCreative V CDR làm đầu vào cho mô hình phân lớp .................................................................... 31

Bảng 3.1 – Các tham số thiết lập mô hình chạy thuật toán ................................ 37

Bảng 3.2 – Cấu hình phần cứng chạy thử nghiệm thuật toán ............................ 38

Bảng 3.3 – Bảng độ đo kết quả thực hiện (lấy trung bình) ................................ 39

Bảng 3.4 – Bảng so sánh kết quả của mô hình đề xuất với một số mô hình đã được nghiên cứu trước đây ................................................................................. 40

9

MỞ ĐẦU

Tác dụng phụ của thuốc là một phản ứng không mong muốn bao gồm cả có lợi và có hại khi người dùng sử dụng một hoặc một vài loại thuốc nào đó. Thông thường các nhà sản xuất thuốc sẽ có mục tác dụng không mong muốn trong hướng dẫn sử dụng thuốc để liệt kê ra danh sách các loại tác dụng phụ đã được biết đến và được xác nhận. Tuy nhiên trên thực tế có rất nhiều tác dụng phụ khác của thuốc được phát hiện trong các công trình nghiên cứu, các y văn (độ tin tưởng cao) hoặc cả trên các trang mạng xã hội (độ tin tưởng thấp hơn) nhưng chưa được liệt kê vào trong hướng dẫn sử dụng thuốc.

Ở Châu Âu, tác dụng phụ của thuốc (ADRs - Adverse drug reactions) gây ra một số lượng bệnh và tử vong đáng kể [06]. Người ta ước tính rằng khoảng 5% số bệnh nhân nhập viện nguyên nhân do tác dụng phụ của thuốc, khoảng 5% bệnh nhân đang điều trị bị ảnh hưởng bới tác dụng phụ trong thời gian chữa trị, và gây ra khoảng khoảng 197,000 ca tử vong trên toàn Châu Âu [06]. Tác dụng phụ của thuốc có thể ảnh hưởng tới 77 tỉ đô la ngân sách chăm sóc sức khỏe của Mỹ mỗi năm [20] .

Thông thường tác dụng phụ của thuốc được nhà sản xuất nghiên cứu và đưa ra trong quá trình phát triển thuốc và được tổng hợp dựa vào báo cáo trực tiếp của người dùng cho nhà sản xuất thuốc. Ngoài ra cũng còn một cách khác là nhà sản xuất sẽ chủ động phân tích các văn bản y sinh nói về thuốc của mình để tìm xem nghiên cứu đó có chỉ ra tác dụng phụ nào hay không. Nguồn văn bản đáng tin cậy nhất thường được sử dụng là những y văn, đó là những văn bản thuộc về lĩnh vực y sinh. Nhưng đây là một công việc vô cùng tốn thời gian, tốn kém và rất khó để lọc ra tất cả các dữ liệu liên quan mới nhất trong các y văn được công bố hàng ngày, hàng giờ.

Theo số lượng được công bố trên Pubmed (https://pubmed.ncbi.nlm.nih.gov/), số lượng bài báo được công bố hàng năm ngày càng tăng lên điển hình như năm 2020 có ~1,6 triệu văn bản y khoa được công bố. Đây là một nguồn tư liệu rất quý giá và mang tính khoa học cao. Nếu sử dụng được nguồn dữ liệu này để thực hiện phân tích một cách tự động sẽ mang lại lợi ích rất lớn.

Mạng nơ ron tích chập và mạng nơ ron hồi quy là 2 mạng nơ ron được sử dụng nhiều trong các bài toán trích xuất quan hệ y sinh, và mỗi mạng nơ ron đều có các điểm mạnh riêng. Bằng cách kết hợp các điểm mạnh của 2 mô hình mạng nơ ron tích chập và mạng nơ ron hồi quy để tận dụng các điểm mạnh của mỗi loại, chúng ta có thể xây dựng được các mô hình tốt hơn cho bài toán trích xuất quan hệ này.

Và đó cũng là lý do tác giả quyết định chọn đề tài “Dự đoán tác dụng phụ của thuốc từ y văn sử dụng mô hình lai dựa trên mạng nơ ron” để thực hiện phân tích các tác dụng phụ của thuốc từ y văn.

10

Luận văn có bố cục gồm 3 chương chính:

Chương 1: Cơ sở lý thuyết

Chương này giới thiệu tổng quan thuốc, quá trình chế tạo thuốc, tác dụng phụ

của thuốc và cơ sở lý thuyết về các phương pháp khai phá dữ liệu văn bản.

Chương 2: Dự đoán tác dụng phụ của thuốc

Chương này sẽ mô tả một cách chi tiết về bài toán dự đoán tác dụng phụ của thuốc và việc xây dựng bộ dữ liệu tác dụng phụ của thuốc, cách thức biến đổi dữ liệu, trích chọn đặc trưng dữ liệu

Chương 3: Thực nghiệm và kết luận

Chương này sẽ trình bày việc áp dụng các mô hình phân lớp sử dụng mô hình lai dựa trên mạng nơ ron để dự tác dụng phụ của thuốc và đánh giá mô hình đạt được so với các phương pháp khác.

Cuối cùng là một số kết luận và hướng phát triển trong tương lai

11

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT

1.1. THUỐC VÀ QUY TRÌNH PHÁT TRIỂN THUỐC

1.1.1. Quy trình phát triển thuốc (Drug development process)

Nghiên cứu chế tạo thuốc (Drug discovery) là một quá trình nhằm xác định một phân tử tổng hợp nhỏ hoặc một phân tử sinh học lớn để đánh giá toàn diện xem đó có phải là một ứng cử viên thuốc tiềm năng hay không. Quy trình nghiên cứu chế tạo thuốc hiện đại bao gồm việc nhận dạng căn bệnh cần điều trị và nhu cầu y tế chưa được đáp ứng của nó, lựa chọn các phân tử mục tiêu có thể tạo thành thuốc và xác nhận nó, phát triển thử nghiệm trong phòng thí nghiệm nghiệm, phát triển các hợp chất trong ống nghiệm để thể hiện khả năng và tính hiệu quả trong các mô hình sinh học. Sau đó, các hợp chất được tối ưu hóa hơn nữa để cải thiện hiệu quả và dược động học của chúng trước khi chúng tiến tới phát triển thuốc. [17]

Quá trình phát triển thuốc (Drug development) có thể được tách biệt thành các giai đoạn phát triển tiền lâm sàng và lâm sàng. Trong quá trình phát triển tiền lâm sàng, các nghiên cứu dược lý học về độc tính và an toàn của ứng viên thuốc được thực hiện để thiết lập nồng độ an toàn tối đa ở động vật và xác định khả năng tác dụng phụ của thuốc đang phát triển. Ngoài ra, các nghiên cứu được thực hiện để hoàn thiện các quy trình hiệu quả về chi phí cần thiết để sản xuất thuốc cũng như quyết định công thức tốt nhất của nó. Nếu ứng cử viên thuốc thể hiện đủ hiệu quả và an toàn trong đánh giá tiền lâm sàng, thì cơ quan quản lý dược phẩm sẽ xin phép để bắt đầu phát triển lâm sàng trong đó tính an toàn và hiệu quả của thuốc được đánh giá trong các nghiên cứu thí điểm và then chốt. [17]

12

Hình 1.1 – Quy trình nghiên cứu thuốc [02]

Việc khám phá và phát triển các loại thuốc cải tiến đòi hỏi nhiều thời gian và chi phí và hiện tại khoảng 12 năm và trung bình cần 1,8 tỷ đô la để tung ra một loại thuốc mới. [17]

Quá trình phát triển thuốc ở giai đoạn lâm sàng chia ra thành bốn giai đoạn như

bảng 1.1 sau:

Giai đoạn Mục đích Quy mô Thời gian

Vài tuần

20-80 người khỏe mạnh

Giai đoạn I: Xác định mức độ an toàn Kiểm tra tính an toàn của thuốc trên những người khỏe mạnh

Vài tháng

>= 100 người bị bệnh

Giai đoạn II – Xác định mức độ hiệu quả Kiểm tra mức độ hiệu quả của thuốc trên tập nhỏ những người bệnh

vài

Một năm

1000 bị chia

III – Giai đoạn Chứng minh tính ưu việt của thuốc so với các điều kiện So sánh tính ưu việc của thuốc mới so với các phương pháp chăm sóc tiêu chuẩn hiện tại >= người bệnh, làm 2 nhóm

13

chăm sóc cơ bản

Phụ thuộc vào thực tế

Giai đoạn IV – Kiểm soát sau khi đưa vào sử dụng Theo dõi hiệu quả và độ an toàn của thuốc sau khi đưa vào sử dụng Phụ thuộc vào thực tế

Bảng 1.1 – Các giai đoạn phát triển thuốc [2]

1.1.2. Tác dụng phụ của thuốc

1.1.2.1. Định nghĩa

Có rất nhiều định nghĩa về tác dụng phụ của thuốc khác nhau đã được đưa ra, nhưng trong luận văn này sử dụng định nghĩa của WHO về phản ứng có hại của thuốc, đã được sử dụng trong khoảng 30 năm, đó là “phản ứng tiêu cực và không theo ý muốn đối với một loại thuốc xảy ra ở liều lượng thường được sử dụng cho con người dùng để dự phòng, chẩn đoán hoặc điều trị bệnh, hoặc sửa đổi chức năng sinh lý” [18]

1.1.2.2. Phân loại các tác dụng phụ của thuốc

Các phản ứng có hại của thuốc được phân thành sáu loại: liên quan đến liều lượng (Augmented), không liên quan đến liều lượng (Bizarre), liên quan đến liều lượng và liên quan đến thời gian (Chronic), liên quan đến thời gian (Delayed), liên quan sau khi ngừng thuốc (End of use), và liên quan thất bại của liệu pháp (Failure). [13]

Loại tác dụng phụ

Đặc trưng

Cách thức xử lý

- Giảm

liều

hoặc

liều

dừng lại

Liên quan đến lượng (Augmented)

- Phổ biến - Liên quan đến tác dụng dược lý

của thuốc

- Xem xét tác dụng của liệu pháp đồng thời

- Tỷ lệ tử vong thấp - Có thể dự đoán được

Không liên quan đến liều lượng (Bizarre)

- Không phổ biến - Không liên quan đến tác dụng

- Dừng lại và không sử dụng trong tương lai

dược lý của thuốc - Tỷ lệ tử vong cao - Không dự đoán được

- Giảm

liều

hoặc

- Không phổ biến - Liên quan tới sự tích lũy liều lượng

ngừng sử dụng - Việc dừng thuốc có

Liên quan đến liều lượng và liên quan đến thời gian (Chronic)

thể kéo dài

- Thường khó chữa

Liên quan đến thời gian (Delayed)

- Không phổ biến - Thường liên quan tới liều lượng

14

- Xảy ra hoặc trở nên rõ ràng một thời gian sau khi sử dụng thuốc

- Dùng lại thuốc và

giảm dần

- Không phổ biến - Xảy ra sau quá trình sử dụng thuốc

Liên quan sau khi ngừng thuốc (End of use)

- Tăng liều lượng - Xem xét các

Liên quan thất bại của liệu pháp (Failure)

- Phổ biến - Liên quan tới liều lượng - Thường do tương tác thuốc

tác dụng phụ của liệu pháp đồng thời

Bảng 1.2 – Phân loại các tác dụng phụ khi sử dụng thuốc [13]

1.2. KHAI PHÁ DỮ LIỆU VÀ CÁC THUẬT NGỮ LIÊN QUAN

1.2.1. Định nghĩa về khai phá dữ liệu

Xác định một ngành khoa học luôn là một nhiệm vụ gây tranh cãi; các nhà nghiên cứu thường không đồng ý về phạm vi chính xác và giới hạn của lĩnh vực nghiên cứu của họ. Bởi vậy, có thể có những định nghĩa khác về khai phá dữ liệu, nhưng trong luận văn này sử dụng định nghĩa về khai phá dữ liệu như sau:

Khai phá dữ liệu là việc phân tích các tập dữ liệu quan sát (thường lớn) để tìm ra các mối quan hệ chính xác và tóm tắt dữ liệu theo những cách mới một cách dễ hiểu và hữu ích cho người sở hữu dữ liệu.

Các mối quan hệ và tóm tắt thu được từ một công việc khai phá dữ liệu thường được gọi là mô hình hoặc mẫu. Ví dụ như phương trình tuyến tính, quy tắc, cụm, đồ thị, cấu trúc cây và các mẫu lặp lại theo thời gian.

Định nghĩa trên đề cập đến “Dữ liệu quan sát” (Obserrvational data) trái ngược với “Dữ liệu thử nghiệm” (Experrimental data). Khai phá dữ liệu thường xử lý dữ liệu đã được thu thập cho một số mục đích khác ngoài phân tích khai phá dữ liệu (ví dụ như, đó là những dữ liệu được thu thập vì mục đích duy trì các hồ sơ về tất cả giao dịch ngân hàng luôn được cập nhật mới nhất) [10]

1.2.2. Bài toán phân lớp dữ liệu

1.2.2.1. Giới thiệu về bài toán phân lớp

Bài toán phân lớp là một bài toán xuất hiện thường xuyên trong cuộc sống hàng ngày. Về cơ bản bài toán phân lớp là một quá trình phân chia các đối tượng để mỗi đối tượng được gán vào trong một lớp, và không bao giờ có trường hợp nào một đối tượng được gán vào trong nhiều hơn một lớp.[9]

Có nhiều bài toán phân lớp dữ liệu như

15

- Phân lớp nhị phân: Là bài toán gán nhãn dữ liệu cho đối tượng vào một trong hai lớp khác nhau. Ví dụ như bài toán phân lớp khách hàng muốn/không muốn mua một sản phẩm trong cửa hàng

- Phân lớp đa lớp: Là bài toán phân lớp dữ liệu vào số lượng lớp lớn hơn 2. Ví dụ như bài toán phân lớp chủ thể trong bức ảnh vào các nhóm cây cối, ô tô, xe đạp,…

1.2.2.2. Quá trình xây dựng mô hình phân lớp dữ liệu

Quá trình phân lớp dữ liệu bao gồm các bước sau:

- Bước 1: Tạo tập dữ liệu huấn luyện và tập dữ liệu kiểm tra: Đây là một bước

rất quan trọng ảnh hướng tới độ chính xác của thuật toán

- Bước 2: Tiền xử lý dữ liệu và xác định các đặc trưng của dữ liệu sẽ được sử

dụng trong mô hình phân lớp

- Bước 3: Xây dựng mô hình phân lớp - Bước 4: Đánh giá mô hình và tối ưu hóa tham số của mô hình

1.2.3. Học sâu và mạng nơ ron

1.2.3.1. Giới thiệu

Trí tuệ nhân tạo (Artificial Intelligence - AI) đề cập đến trí thông minh do máy móc đạt được, trái ngược với trí thông minh tự nhiên của con người. Trí tuệ nhân tạo được con người thiết kế ra để giải quyết một số công việc cụ thể.

Học máy (Machine Learning) là một tập con các phương thức bên trong AI, đặc biệt đề cập đến các thuật toán và mô hình số được thiết lập để phân tích dữ liệu và lấy hoặc học khả năng ra quyết định để đạt được một số nhiệm vụ nhất định. Mục tiêu của nó là phát hiện ra các mô hình ẩn trong dữ liệu dưới các ràng buộc dữ liệu, ví dụ như kích thước dữ liệu và chất lượng, cho phép giải quyết được các vấn đề đang được quan tâm.

Học sâu (Deep Learning - DL), được giới thiệu bởi Aizenberg và cộng sự (2000) [12] là một nhóm các phương thức trong học máy. Bởi vậy, mục đích của các phương pháp học sâu cũng tương tự như học máy.

16

Hình 1.2 – Mối quan hệ giữa trí tuệ nhân tạo, học máy, học sâu [01]

Điểm khác biệt giữa học sâu và các phương pháp học máy khác là học sâu sử dụng mô hình phân cấp quy mô lớn với kiến trúc nhiều lớp để tự động tạo ra các biểu diễn toàn diện và tìm hiểu các mẫu phức tạp vốn có từ dữ liệu. Ngược lại các phương pháp học máy cơ bản đều phải lựa chọn các đặc trưng được trích xuất thủ công từ dữ liệu làm đầu vào và dựa vào các mô hình tương đối đơn giản để biểu diễn các mẫu dữ liệu vốn có.

Trong những năm gần đây, học sâu ngày càng trở lên phổ biến trong nghiên cứu và ứng dụng bởi vì tính khả thi với các thuật toán tiên tiến, sức mạnh tính toán cao và khả năng sẵn sàng với tập dữ liệu lớn, cũng như hiệu năng ấn tượng so với các thuật toán học máy truyền thống.

1.2.3.2. Mạng nơ ron

Mô hình được sử dụng phổ biến nhất trong học sâu là mạng nơ ron sâu (Deep Neural Networks – DNN) [14] với một lượng lớn lớp. Thành phần cơ bản xây dựng lên DNN là các nơ ron được thiết kế dựa trên nơ ron hệ thần kinh của con người. Mỗi nơ ron nhân tạo sẽ bao gồm các thành phần chính sau: Một nhóm tín hiệu đầu vào, một hàm tuyến tính, một hàm không tuyến tính, và tín hiệu đầu ra

17

Hình 1.3 – Cấu trúc một nơ ron [14]

Mỗi nơ ron sẽ lấy dữ liệu từ đầu vào và trước tiên sử dụng hàm tuyến tính để xử lý chúng. Kết quả sau đó được cho vào một hàm kích hoạt, thường là một hàm không tuyến tính, và trả về kết quả đầu ra.

Thông thường một mạng nơ ron học sâu bao gồm nhiều lớp. Mỗi nơ ron là một lớp sẽ nhận t hông tin từ các lớp trước đó, xử lý chúng và trả về kết quả cho các lớp tiếp theo. Bất kỳ lớp nào được nhúng giữa đầu vào của DNN và đầu ra được gọi là lớp ẩn (hidden layer)

Một số loại mạng nơ ron sâu điển hình có thể kể đến mạng nơ ron kết nối đầy đủ (Fully connected deep neural network), mạng nơ ron tích chập (Convolutional neural network – CNN), mạng nơ ron hồi quy (Recurrent neural network – RNN)

1.2.3.3. Mạng nơ ron tích chập

Mạng nơ ron tích chập (Convolutional neural network – CNN) [14] : Mạng nơ ron tích chập bao gồm một tập hợp các lớp tích chập được chồng lên nhau và sử dụng các hàm kích hoạt không tuyến tính như ReLU hay tanh.

Hình 1.4 – Mô hình mạng nơ ron tích chập [14]

Phép tích chập sử dụng một hạt nhân và biến đổi với dữ liệu của các lớp trước để tạo ra một dữ liệu mới, gọi là các dữ liệu đặc trưng và cung cấp chúng cho các lớp tiếp theo. Các hoạt gộp, như gộp tối đa (max-pooling) hoặc là gộp trung bình (average- pooling) có thể được thêm vào sau khi tích chập để giảm kích thước của các đặc trưng. Điều này cho phép mô hình giảm chi phí tính toán và phân tích dữ liệu ở nhiều mức độ

18

khác nhau. Ngoài các lớp này, mạng nơ ron tích chập cũng có thể kết hợp với các mạng nơ ron khác và hoạt động bình thường

1.2.3.4. Mạng nơ ron hồi quy

Mạng nơ ron hồi quy [14] là mạng nơ ron có cơ chế phản hồi trong các lớp ẩn. Do tính chất lặp lại, một mạng nơ ron hồi quy có thể được xem tương đương như một chuỗi các mạng sếp chồng lên nhau có cấu trúc giống nhau. Mạng nơ ron hồi quy được thiết kế để học hiệu quả từ dữ liệu tuần tự, chẳng hạn như văn bản, lời nói, dữ liệu chuỗi thời gian.

Cấu trúc ban đầu của mạng nơ ron hồi quy được phát hiện chỉ được giới hạn trong các chuỗi dữ liệu ngắn gây ra hiện tượng không ổn định trong việc truyền bộ nhớ từ các lần lặp trước. Để giảm thiếu vấn đề này, một mô hình bộ nhớ ngắn hạn (long short-term memory – LSTM) được đề xuất, bổ sung thêm các chơ chế để ghi nhớ và giải phóng các thông tin trước đây, thêm mới dữ liệu vào bộ nhớ và tính toán đầu ra mong muốn cho lần lặp đó. Với những sửa đổi này, mô hình bộ nhớ ngắn hạn có khả năng học và thực hiện trên các chuỗi dữ liệu dài hơn nhiều và đã thay thế phần lớn mạng nơ ron hồi quy cơ bản cho hầu hết các tác vụ hiện đại.

Hình 1.5 – Mạng nơ ron hồi quy hai chiều [14]

Trong khi mô hình bộ nhớ ngắn hạn là một trong những mô hình phổ biến nhất của mạng nơ ron hồi quy, một mạng khác cũng được phát triển đó là mạng nơ ron hồi quy hai chiều (Bi-directional RNN)

19

1.2.4. Đánh giá mô hình phân lớp

1.2.4.1. Khái niệm

Để đánh giá mô hình phân lớp có hiệu quả hay không chúng ta cần phải dựa

vào một số tiêu chí cơ bản như độ chính xác, độ phủ hay độ đo điều hòa F,…

Các độ đo trên thường được tính toán dựa trên tập dữ liệu kiểm định (test data). Giả sử đầu ra của mô hình khi đầu vào là tập dữ liệu kiểm định được mô tả bởi vector vpredict và vector đầu ra đúng của tập kiểm tra là vtrue. Và để đánh giá mô hình, ta cần so sánh giữa 2 vector này với nhau. [01]

1.2.4.2. Độ chính xác & độ phủ (Precision & Recall)

Độ chính xác đối với lớp 𝑐i :

(1)

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛𝑖 =

𝑇𝑃𝑖 𝑇𝑃𝑖+𝐹𝑃𝑖

Trong đó: 𝑇𝑃𝑖 là số phần tử của lớp 𝑐i được dự đoán đúng, 𝐹𝑃𝑖 là số phần tử

được dự đoán vào lớp 𝑐i nhưng bị sai

Độ phủ đối với lớp 𝑐i :

(2)

𝑅𝑒𝑐𝑎𝑙𝑙𝑖 =

𝑇𝑃𝑖 𝑇𝑃𝑖+𝐹𝑁𝑖

Trong đó: 𝑇𝑃𝑖 là số phần tử của lớp 𝑐i được dự đoán đúng, 𝐹𝑁𝑖 là số phần tử

đúng của lớp 𝑐i nhưng lại được dự đoán vào lớp khác

1.2.4.3. Độ đo trung bình điều hòa F

Độ đo trung bình điều hòa F của các tiêu chí Precision và Recall:

- Độ đo trung bình điều hòa F có xu hướng lấy giá trị gần với giá trị nào nhỏ

hơn giữa hai giá trị Precision và Recall.

- Độ đo trung bình điều hòa F có giá trị lớn nếu cả hai giá trị Precision và

Recall đều lớn.

Tiêu chí đánh giá là sự kết hợp của 2 tiêu chí đánh giá Precision và Recall theo

công thức:

(3)

𝐹𝑖 =

2 𝑥 𝑃𝑟𝑒𝑠𝑖𝑠𝑖𝑜𝑛 𝑖 𝑥 𝑅𝑒𝑐𝑎𝑙𝑙𝑖 𝑃𝑟𝑒𝑠𝑖𝑠𝑖𝑜𝑛𝑖+𝑅𝑒𝑐𝑎𝑙𝑙𝑖

Trong đó 𝐹𝑖 là độ đo trung bình điều hòa của lớp 𝑐𝑖, 𝑃𝑟𝑒𝑠𝑖𝑠𝑖𝑜𝑛 𝑖 và 𝑅𝑒𝑐𝑎𝑙𝑙𝑖

chính là giá trị được tính bởi công thức (1) và (2)

20

CHƯƠNG 2: DỰ ĐOÁN TÁC DỤNG PHỤ CỦA THUỐC

2.1. Bài toán dự đoán tác dụng phụ của thuốc từ y văn

Thông thường bài toán dự đoán tác dụng phụ của thuốc từ y văn được chia làm

hai bài toán cụ thể như sau:

- Bài toán 1: Nhận dạng thực thể bệnh lý và thực thể thuốc (Named Entity

Recognition – NER)

- Bài toán 2: Trích xuất mối quan hệ bệnh lý do thuốc gây ra (Chemical-

Induced Disease - CID)

2.1.1. Bài toán nhận dạng thực thể bệnh lý và thực thể thuốc (Named Entity Recognition – NER) [11]

Nhận dạng thực thể bệnh lý và thực thể thuốc là một bài toán tiền xử lý thiết yếu trong việc xử lý các y văn, và là một bài toán xử lý ngôn ngữ tự nhiên. Việc xác định được chính xác các thực thể trong tài liệu sẽ giúp việc xác định các tính chất hóa học, các đặc tính và các mối quan hệ được nêu ra trong văn bản.

Đầu vào Đầu ra

unanesthetized, hypertensive – disease

clonidine – chemical

nalozone – chemical to 5

…In spontaneously hypertensive rats the decrease in blood pressure and heart rate produced by intravenous 20 clonidine, micrograms/kg, was inhibited or reversed by nalozone, 0.2 to 2 mg/kg…

Bảng 2.1 – Bảng mô tả đầu vào và đầu ra đối với việc nhận dạng thực thể bệnh lý và thực thể thuốc

Theo ví dụ trên, từ dữ liệu đầu vào chúng ta xử lý tách ra được các thực thể liên quan tới thuốc và bệnh như sau: hypertensive (bệnh lý), clonidine (thuốc), nalozone (thuốc)

Có rất nhiều phương pháp được sử dụng để thực hiện bài toán nhận dạng thực thể thuốc và bệnh lý với độ chính xác cao. Bảng 2.2 đưa ra các phương pháp đã được nghiên cứu và các độ đo cụ thể:

Hệ thống P R F

Stanford NER 83% 82% 82%

MarMoT 85% 85% 85%

21

CRF++ 74% 71% 73%

MITIE 62% 61% 62%

Glample 82% 84% 83%

Majority vote 70% 76% 73%

LSTMVoter 91% 90% 90%

Bảng 2.2 – Bảng độ đo với các phương pháp nhận dạng thực thể bệnh lý và thực thể thuốc [11]

Trong nội dung của luận văn này tác giả không đi chi tiết vào bài toán nhận diện thực thể mà chỉ đi chi tiết vào bài toán trích xuất mối quan hệ giữa thực thể bệnh lý và thực thể thuốc hay chính là tác dụng phụ khi sử dụng một loại thuốc. Các thực thể thuốc và thực thể bệnh lý sẽ được sử dụng sẵn từ dữ liệu đầu vào.

2.1.2. Bài toán trích xuất mối quan hệ bệnh lý do thuốc gây ra (Chemical-Induced Disease – CID)

Bài toán trích xuất mối quan hệ giữa bệnh lý do thuốc gây ra chính là việc xác định một loại bệnh lý xảy ra khi người dùng sử dụng một loại thuốc nào đó được viết trong y văn.

Mô tả cụ thể về bài toán chúng ta có thể xem trong ví dụ sau:

Đầu vào Đầu ra

alpha- methyldopa (thuốc) và hypotensive (bệnh giảm huyết áp): Có quan hệ

reversed partially

…The 𝒉𝒚𝒑𝒐𝒕𝒆𝒏𝒔𝒊𝒗𝒆disease effect of 100 mg/kg 𝒂𝒍𝒑𝒉𝒂 − 𝒎𝒆𝒕𝒉𝒚𝒍𝒅𝒐𝒑𝒂chemical by also was 𝒏𝒂𝒍𝒐𝒙𝒐𝒏𝒆chemical…

Bảng 2.3 – Bảng mô tả đầu vào và đầu ra của việc trích xuất mối quan hệ

giữa thuốc và bệnh

Như ở trong ví dụ trên, từ đầo vào của bài toán là một đoạn y văn có chứa các loại bệnh lý và thuốc (đã được nhận diện ở bài toán nhận diện thực thể), sau khi trích xuất mối quan hệ giữa thuốc và bệnh lý chúng ta có được một cặp thuốc và bênh lý có quan hệ với nhau (alpha-methyldopa + hypotensive), còn quan hệ giữa thuốc naloxone và thuốc alpha-methyldopa là mối quan hệ tương tác giữa hai loại thuốc với nhau.

Trong luận văn này chỉ làm về việc trích xuất mối quan hệ có giữa thuốc và bệnh lý, nghĩa là một thuốc có tác dụng lên một bệnh lý cụ thể. Đây là một bài toán

22

phân lớp nhị phân. Các cặp quan hệ thuốc và bệnh lý sẽ chỉ có hai tập dữ liệu đó là “Có quan hệ” và “Không có quan hệ”.

Đặc điểm của hai tập dữ liệu này có dữ liệu không tương đồng với nhau, trong đó tập dữ liệu “Không có quan hệ” có số lượng phần tử lớn hơn rất nhiều so với tập “Có quan hệ”. Đây chính là bài toán phân lớp nhị phân, dữ liệu đầu vào là các cặp thuốc và bệnh lý trong câu được phân vào hai lớp “Có quan hệ” và “Không có quan hệ”

Nhưng đối với bài toán trích xuất thông tin tác dụng phụ của thuốc, chúng ta chỉ quan tâm tới tập “Có quan hệ” và tập chung tối ưu việc phân lớp các cặp thuốc và bệnh lý vào tập này một cách chính xác và có hiệu quả cao. Vì vậy kết quả để đưa ra đánh giá của luận văn cũng chỉ sử dụng các độ đo chính xác, độ phủ và độ đo trung bình điều hòa F trên lớp “Có quan hệ” để đánh giá mức độ hiệu quả của mô hình.

Vậy chúng ta có công thức để xác định mức độ hiệu quả của mô hình như sau:

𝑇𝑃

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =

Độ chính xác đối với lớp “Có quan hệ” :

(4)

𝑇𝑃+𝐹𝑃

Trong đó: 𝑇𝑃 là số phần tử của lớp “Có quan hệ” được dự đoán đúng, 𝐹𝑃 là số

phần tử được dự đoán vào lớp “Có quan hệ” nhưng bị sai

𝑇𝑃

𝑅𝑒𝑐𝑎𝑙𝑙 =

Độ phủ đối với lớp “Có quan hệ” :

(5)

𝑇𝑃+𝐹𝑁

Trong đó: 𝑇𝑃 là số phần tử của lớp “Có quan hệ” được dự đoán đúng, 𝐹𝑁 là số phần tử đúng của lớp “Có quan hệ” nhưng lại được dự đoán vào lớp khác (lớp “Không có quan hệ”)

2 𝑥 𝑃𝑟𝑒𝑠𝑖𝑠𝑖𝑜𝑛 𝑥 𝑅𝑒𝑐𝑎𝑙𝑙

Độ đo trung bình điều hòa F:

F =

(6)

𝑃𝑟𝑒𝑠𝑖𝑠𝑖𝑜𝑛+𝑅𝑒𝑐𝑎𝑙𝑙

Với Pressision và Recall được tính bởi công thức (4) và (5)

Như chúng ta đã biết, nguồn dữ liệu về y văn rất lớn, tuy nhiên trong luận văn này tác giả chỉ sử dụng nguồn văn bản là các bài báo về y sinh được đăng trên Pubmed, trong đó chỉ sử dụng các nội dung bao gồm tiêu đề và tóm tắt của y văn làm đầu vào để chạy mô hình. Ở luận văn, tác giả chỉ xét tới mối quan hệ của thuốc và bệnh lý được xuất hiện cùng nhau trong cùng một câu, vì vậy các dữ liệu tiêu đề và tóm tắt của y văn sẽ được xử lý tách câu trước khi đưa vào mô hình chạy.

Luận văn chỉ tập trung vào việc trích xuất mối quan hệ giữa thuốc và bệnh lý vì vậy tác giả sử dụng nguồn dữ liệu có sẵn đã được trích xuất các thực thể bệnh lý và

23

thuốc để làm đầu vào cho mô hình đề xuất. Đó chính là bộ dữ liệu BioCreative V CDR sẽ được mô tả cụ thể hơn ở mục 2.2.

2.2. Bộ dữ liệu BioCreative V CDR

2.2.1. Giới thiệu về Pubmed

Pubmed (https://pubmed.ncbi.nlm.nih.gov/) là một nguồn tài nguyên miễn phí hỗ trợ cho việc tìm kiếm và truy suất các tài liệu y sinh và khoa học đời sống với mục đích cải thiện sức khỏe.

Cơ sở dữ liệu của Pubmed chưa nhiều hơn 30 triệu trích dẫn và tóm tắt của tài liệu y sinh. Pubmed được mở miễn phí bắt đầu từ năm 1996 và được duy trì bởi Trung tâm quốc gia về thông tin công nghệ sinh học (National Center for Biotechnology Information – NCBI), tại Thư viện Quốc gia Hoa kỳ (U.S National Library of Medicine – NLM)

Các trích dẫn trong Pubmed chủ yếu xuất phát từ lĩnh vực y sinh và y tế, và các ngành liên quan như khoa học đời sống, khoa học hành vi, khoa học hóa học và kỹ thuật sinh học.

2.2.2. Dữ liệu quan hệ thuốc và bệnh - BioCreative V CDR

2.2.2.1. Giới thiệu về BioCreative V CDR

Xử lý dữ liệu về thuốc, bệnh và mối quan hệ giữa chúng theo cách thủ công có tầm quan trọng đáng kể đối với nghiên cứu y sinh nhưng tốn nhiều chi phí bởi sự phát triển nhanh chóng của các tài liệu y sinh.

Trong những năm gần đây, ngày càng có nhiều sự quan tâm đến việc phát triển các phương pháp tiếp cận việc trích xuất quan hệ thuốc và bệnh lý một cách tự động (Chemical Disease Relation – CDR) với nhiều đề xuất và kỹ thuật khác nhau.

Do đó các nhà khoa học đã lập ra một số các công việc thông qua BioCreative V để tự động trích xuất CDR từ tài liệu. Cụ thể hơn đó là hai công việc: Nhận dạng thực thể bệnh lý và thuốc (Named Entity Recognition - NER) và trích xuất mối quan hệ bệnh lý do thuốc gây ra (Chemical-Induced Disease - CID).

Kết quả của công việc trên là sự ra đời của kho dữ liệu BioCreative V CDR bao gồm 1.500 bài báo trên Pubmed được chú thích về 4409 loại thuốc, 5818 bệnh lý và 3116 tương tác giữa thuốc và bệnh lý.

Dữ liệu

Số bài viết

Bệnh lý

Thuốc

CID

24

Training

500

1965

1467

1038

Development

500

1865

1507

1012

Test

500

1988

1435

1066

Bảng 2.4 – Cấu trúc dữ liệu BioCreative V CDR

2.2.2.2. So sánh BioCreative V CDR với các nguồn dữ liệu khác

Dữ liệu

Kích cỡ

thích

Phạm vi chú thích

thích -

thích -

Chú quan hệ

Chú thực thể Nhắc đến

Chú thực thể Khái niệm

BC5CDR

Abstract

1500 Có

EU-ADR[15] Sentence

300 Có

ADE[07]

Sentence

2972 Có

Không

Corpus[08]

Abstract

400 Có

Không

Bảng 2.5 – So sánh dữ liệu BioCreative V CDR với các nguồn dữ liệu khác

Như trong Bảng 2.5, kho dữ liệu EU-ADR gồm có 300 bài báo Pubmed với 739

loại thuốc, 812 bệnh lý và 300 mối quan hệ giữa thuốc và bệnh lý ở mức câu.

Kho dữ liệu ADE gồm có 2972 bài báo Pubmed ở mức câu với 5776 tác dụng

phụ liên quan tới 5063 loại thuốc.

Kho dữ liệu Corpus chỉ cung cấp nhận diện tên bệnh lý và tên tác dụng phụ và

không có mối quan hệ giữa bệnh lý và thuốc

2.2.3. Cấu trúc kho dữ liệu BioCreative V CDR

BioCreative V CDR được chia thành 3 tập dữ liệu: Training, Development, Test. Mỗi tập bao gồm 500 bài viết. Dữ liệu chú thích được xử lý sẵn ở cả 2 định dạng PubTator[04] và BioC [05]. Ở định dạng PubTator, các file dữ liệu được lưu dưới dạng text thông thường, câu trúc một bài viết như Hình 2.1 bên dưới. Định dạng BioC chính là định dạng XML tiêu chuẩn gần đây được đề xuất cho việc khai thác các văn bản y sinh và dữ liệu đầu ra. Cấu trúc BioC của dữ liệu BioCreative V CDR như Hình 2.2 bên dưới.

Trong mỗi tập sẽ bao gồm các thông tin: ID của bài viết trên Pubmed, Tiêu đề của bài viết, tóm tắt của bài viết, danh sách các thuốc xuất hiện trong bài viết, danh sách các bệnh lý xuất hiện trong bài viết và danh sách các quan hệ thuốc và bệnh lý xuất hiện trong bài viết.

25

6504332 title 0 Phenobarbital-induced dyskinesia in a neurologically-impaired child. Chemical D010634 Phenobarbital Disease D004409 dyskinesia Disease D009422 neurologically-impaired abstract 69 A 2-year-old child with known neurologic impairment developed a dyskinesia soon after starting phenobarbital therapy for seizures. Known causes of movement disorders were eliminated after evaluation. On repeat challenge with phenobarbital, the dyskinesia recurred. Phenobarbital should be added to the list of anticonvulsant drugs that can cause movement disorders. Disease D009422 neurologic impairment Disease D004409 dyskinesia Chemical D010634 phenobarbital Disease D012640 seizures

26

Disease D009069 movement disorders Chemical D010634 phenobarbital Disease D004409 dyskinesia Chemical D010634 Phenobarbital Disease D009069 movement disorders CID D010634 D004409

6794356|t|Tricuspid valve regurgitation and lithium carbonate toxicity in a newborn infant. 6794356|a|A newborn with massive tricuspid regurgitation, atrial flutter, congestive heart ..... 6794356 0 29 Tricuspid valve regurgitation Disease D014262 6794356 34 51 lithium carbonate Chemical D016651 6794356 52 60 toxicity Disease D064420 6794356 105 128 tricuspid regurgitation Disease D014262 6794356 130 144 atrial flutter Disease D001282 6794356 146 170 congestive heart failure Disease D006333 6794356 189 196 lithium Chemical D008094 6794356 265 288 tricuspid regurgitation Disease D014262 6794356 293 307 atrial flutter Disease D001282 6794356 345 360 cardiac disease Disease D006331 6794356 386 393 lithium Chemical D008094 6794356 511 528 Lithium carbonate Chemical D016651 6794356 576 600 congenital heart disease Disease D006331 6794356 651 672 neurologic depression Disease D003866 6794356 674 682 cyanosis Disease D003490 6794356 688 706 cardiac arrhythmia Disease D001145 6794356 CID D016651 D003490

Hình 2.1 – Dữ liệu định dạng BioC của BioCreative V CDR

27

6794356 CID D016651 D001145 6794356 CID D016651 D003866

Hình 2.2 – Dữ liệu định dạng PubTator của BioCreative V CDR

Mỗi thuốc và bệnh lý sẽ bao gồm các thông tin: vị trí xuất hiện trong bài viết,

tên thuốc/bệnh lý, loại (thuốc/bệnh lý) và mã định danh.

Các bản ghi thực thể thuốc và bệnh lý đã được nhận diện và tách ra thành các

dòng riêng có dánh dấu vị trí của chúng xuất hiện trong y văn.

Mối quan hệ của thuốc và bệnh lý xuất hiện trong y văn được thể hiện bởi các dòng có chữ “CID”, tiếp theo là mã định danh của thuốc và mã định danh của bệnh lý. Chúng ta hiểu được khi một cặp thuốc và bệnh lý xuất hiện tại đây là cặp thuốc và bệnh lý này “Có quan hệ” với nhau

2.2.4. Cách thức xử lý dữ liệu BioCreative V CDR làm đầu vào cho bài toán trích xuất quan hệ thuốc và bệnh lý

Do dữ liệu BioCreative V CDR được cung cấp dưới hai định dạng khác nhau là PubTator (định dạng text) và BioC (định dạng XML) nên chúng ta chỉ cần sử dụng một trong hai loại này để tiến hành xử lý dữ liệu. Ở đây tác giả chọn sử dụng định dạng PubTator để tiến hành xử lý.

Dữ liệu mỗi bài viết trong BioCreative V CDR bao gồm có tiêu đề và tóm tắt

của văn bản. Dữ liệu này sẽ được đưa vào xử lý tách câu như sau:

Đầu vào:

227508|t|Naloxone reverses the antihypertensive effect of clonidine.

clonidine-suppressible binding of influence

indicate that

227508|a|In unanesthetized, spontaneously hypertensive rats the decrease in blood pressure and heart rate produced by intravenous clonidine, 5 to 20 micrograms/kg, was inhibited or reversed by nalozone, 0.2 to 2 mg/kg. The hypotensive effect of 100 mg/kg alpha-methyldopa was also partially reversed by naloxone. Naloxone alone did not affect either blood pressure or heart rate. In brain membranes from spontaneously hypertensive rats clonidine, 10(-8) to 10(-5) M, did not influence stereoselective binding of [3H]-naloxone (8 nM), and naloxone, 10(-8) to 10(-4) M, did not [3H]- in spontaneously dihydroergocryptine (1 nM). These findings hypertensive rats the effects of central alpha-adrenoceptor stimulation involve activation of opiate receptors. As naloxone and clonidine do not appear to interact with the same receptor site, the observed functional antagonism suggests the release of an endogenous opiate by clonidine or alpha-methyldopa and the possible role of the opiate in the central control of sympathetic tone.

Kết quả đầu ra sẽ là một danh sách các câu như sau:

28

- Naloxone reverses the antihypertensive effect of clonidine -

In unanesthetized, spontaneously hypertensive rats the decrease in blood pressure and heart rate produced by intravenous clonidine, 5 to 20 micrograms/kg, was inhibited or reversed by nalozone, 0.2 to 2 mg/kg

- The hypotensive effect of 100 mg/kg alpha-methyldopa was also partially

reversed by naloxone

- Naloxone alone did not affect either blood pressure or heart rate -

In brain membranes from spontaneously hypertensive rats clonidine, 10(-8) to 10(-5) M, did not influence stereoselective binding of [3H]-naloxone (8 nM), and naloxone, 10(-8) to 10(-4) M, did not influence clonidine- suppressible binding of [3H]-dihydroergocryptine (1 nM)

- These findings indicate that in spontaneously hypertensive rats the effects of central alpha-adrenoceptor stimulation involve activation of opiate receptors - As naloxone and clonidine do not appear to interact with the same receptor site, the observed functional antagonism suggests the release of an endogenous opiate by clonidine or alpha-methyldopa and the possible role of the opiate in the central control of sympathetic tone

Tiếp theo, dựa vào danh sách các thực thể thuốc và bệnh lý đã được nhận dạng, chúng ta lọc ra các câu có chứa các cặp thuốc và bệnh lý ra như sau. Đầu vào chính là danh sách các câu đã được tách ở trên, danh sách các thực thể thuốc và bệnh lý đã được nhận dạng trong bộ dữ liệu và danh sách các cặp dữ liệu thuốc và bệnh lý có quan hệ với nhau. Sau quá trình xử lý danh sách các câu có chứa cả cặp thực thể thuốc và bệnh lý và mối quan hệ (có quan hệ/không có quan hệ) giữa hai thực thể này sẽ được sử dụng để làm đầu vào cho mô hình.

Ví dụ với danh sách các câu ở trên và cặp quan hệ đã được phân tích trong bộ

dữ liệu:

29

Hình 2.3 – Biểu diễn các thực thể thuốc và bệnh lý được nhận dạng trong y

văn và các cặp quan hệ thuốc và bệnh lý được phát hiện trong văn bản trên dữ liệu BioCreative V CDR

Chúng ta xử lý được bộ dữ liệu như sau:

Quan hệ Câu Thuốc Bệnh

clonidine hypertensive unanesthetized, 0

and heart

In spontaneously hypertensive rats the decrease in rate blood pressure produced by intravenous clonidine, 5 to 20 micrograms/kg, was inhibited or reversed by nalozone, 0.2 to 2 mg/kg

1 alpha-methyldopa hypertensive

The hypotensive effect of 100 mg/kg alpha-methyldopa was also partially reversed by naloxone

0 naloxone hypertensive

The hypotensive effect of 100 mg/kg alpha-methyldopa was also partially reversed by naloxone

brain 0 clonidine hypertensive

membranes hypertensive

from In spontaneously rats clonidine, 10(-8) to 10(-5) M, did not influence stereoselective binding of

30

[3H]-naloxone (8 nM), and naloxone, 10(-8) to 10(-4) M, did not influence clonidine-suppressible of binding [3H]-dihydroergocryptine (1 nM)

0 brain [3H]-naloxone hypertensive

membranes hypertensive

from In rats spontaneously clonidine, 10(-8) to 10(-5) M, did not influence stereoselective binding of [3H]-naloxone (8 nM), and naloxone, 10(-8) to 10(-4) M, did not influence clonidine-suppressible of binding [3H]-dihydroergocryptine (1 nM)

0 brain hypertensive

membranes hypertensive [3H]- dihydroergocryptine

binding

from In rats spontaneously clonidine, 10(-8) to 10(-5) M, did not influence stereoselective binding of [3H]-naloxone (8 nM), and naloxone, 10(-8) to 10(-4) M, did not influence clonidine-suppressible of [3H]-dihydroergocryptine (1 nM)

Bảng 2.6 – Kết quả đầu ra của quá trình tiền xử lý dữ liệu BioCreative V CDR làm đầu vào cho mô hình phân lớp

Trong đó quan hệ bằng 1 đại diện cho việc thuốc và bệnh lý có quan hệ với nhau và bằng 0 đại diện cho việc thuốc và bệnh lý không có quan hệ với nhau. Nếu một câu có chưa nhiều cặp thuốc và bênh lý sẽ được tách ra thành nhiều dòng khác nhau, mỗi dòng đại diện cho một cặp thuốc và bệnh lý.

Từ dữ liệu này chúng ta sẽ sử dụng làm đầu vào cho mô hình chạy được đề xuất

tại mục 2.3

2.3. Mô hình lai dựa trên mạng nơ ron

2.3.1. Mô hình lai dựa trên mạng nơ ron

Như ở phần lý thuyết chúng ta đã biết, mạng nơ ron tích chập (CNN) và mạng nơ ron hồi quy (RNN) là 2 mạng nơ ron phổ biến nhất trong mạng nơ ron học sâu. Trong những năm gần đây, cả RNN và CNN đều đã được áp dụng thành công trong việc trích xuất quan hệ y sinh. Lưu ý rằng giữa CNN và RNN có những đặc tính khác nhau rõ rệt. Mô hình mạng nơ ron tích chập có kiến trúc mạng thần kinh phân cấp và

31

học tốt các đặc trưng từ vựng và cú pháp cục bộ. Ngược lại, mô hình mạng nơ ron hồi quy có kiến trúc mạng nơ ron tuần tư và mạn hơn trong việc nắm bắt các đặc trưng phụ thuộc liên kết nhau. Bởi vậy mô hình mạng nơ ron tích chập phù hợp để nắm bắt các đặc trưng của câu ngắn, trong khi mô hình mạng nơ ron hồi quy thích hợp hơn để xử lý các câu dài và phức tạp.

Để sử dụng các ưu điểm của mạng nơ ron tích chập và mạng nơ ron hồi quy, luận văn sử dụng một mô hình kết hợp để trích suất các quan hệ y sinh dựa trên trình tự câu, trình tự từ phụ thuộc và trình tự quan hệ phụ thuộc.

Hình 2.4 – Mô hình thuật toán lai dựa trên mạng nơ ron tích chập và hồi quy [20]

Như trong Hình 2.4, mô hình của luận văn bao gồm một Bi-RNN và hai CNN được sử dụng. Trong đó mạng nơ ron hồi quy được sử dụng chính là LSTM cho phép xử lý các câu dài và có cấu trúc phức tạp. Các đặc trưng được sử dụng trong thuật toán bao gồm word embedding (word2vector), position embedding và word relation embedding.

Mạng Bi-RNN sử dụng đầu vào là các câu với các đặc trưng word embedding và position embedding. Sau đó sử dụng một lớp flatten dùng để giảm kích thước của đầu ra cho phù hợp với đầu ra của 2 mạng CNN.

Hai mạng CNN, trong đó một mạng sử dụng đầu vào là các câu với đặc trưng word embedding và position embedding, một mạng sử dụng đầu vào là các câu với đặc trưng relation embedding. Hai mạng CNN này được kết hợp lại với nhau qua một lớp global max-pooling.

32

Cuối cùng việc kết hợp giữa mạng Bi-RNN và hai mạng CNN thông qua lớp softmax để đưa ra kết quả cuối cùng, chính là mô hình lai dựa trên mạng nơ ron được đề xuất để dự đoán tác dụng phụ của thuốc.

2.3.2. Word embedding

Word embedding là cách gọi chung của các mô hình xử lý ngôn ngữ và các phương pháp học theo đặc trưng trong xử lý ngôn ngữ tự nhiên. Trong đây, các từ hoặc các cụm từ được ánh xạ thành các vector số. Đây là một công cụ vô cùng quan trọng được sử dụng trong hầu hết các thuật toán xử lý ngôn ngữ tự nhiên (học máy, học sâu, …) vì để có thê sử dụng được các thuật toán này, các từ/cụm từ cần được biến đổi thành các số để thuật toán có thể hiểu được.

Có 2 loại Word Embedding chính đó là:

- Frequency-based embedding: Phương pháp này sử dụng tần số xuất hiện của

các từ để tạo ra các vector từ.

- Prediction-based embedding: Phương pháp này xây dựng các vector từ dựa

vào các mô hình dự đoán

Frequency-based embedding có 3 loại phổ biến nhất đó là:

- Count vector: Là dạng đơn giản nhất, chỉ xét đến tần số xuất hiện của từ

trong một văn bản

- Tf-idf vector: Ngoài việc xét đến tần số xuất hiện của một từ trong một văn bản, tf-idf vector còn sử dụng cả tần số xuất hiện của từ trong toàn bộ tập dữ liệu. Do đó tf-idf có tính phân loại cao hơn so với Count vector

- Co-occurrence Matrix: Là phương pháp sử dụng tần số xuất hiện của các cặp từ trong một cửa sổ ngữ cảnh. Nổi bật nhất trong phương pháp này đó là GloVe (Global Vector)

GloVe (Global vector) [16] là một trong những phương pháp mới để xây dựng

𝑃(𝑘|𝑖)

vector từ. Ý tưởng của phương pháp này được xây dựng từ công thức tỉ số sau:

𝑃(𝑘|𝑗)

(4)

Trong đó 𝑃(𝑘|𝑖), 𝑃(𝑘|𝑗) là xác suất xuất hiện của từ k trong ngữ cảnh của từ i, j

Công thức của 𝑃(𝑘|𝑖):

𝑋𝑖𝑘 𝑋𝑖

𝑋𝑖𝑘 ∑ 𝑋𝑖𝑚𝑚

(5) 𝑃(𝑘|𝑖) = =

Trong đó 𝑋𝑖𝑘 là số lần xuất hiện của từ k trong ngữ cảnh i. 𝑋𝑖 là số lần xuất hiện

của từ i trong ngữ cảnh của toàn bộ các từ còn lại ngoại trừ i.

33

Sử dụng GloVe thực nghiệm chứng minh mang lại kết quả cao hơn so với các

phương pháp đang có khác.

2.3.3. Position embedding

Position embedding là đặc trưng khoảng cách về vị trí của một từ so với các thực thể. Thông tin về ma trận khoảng cách này sẽ được xử lý trong bướ tiền xử lý dữ liệu. Do việc trích xuất mối quan hệ giữa bệnh lý và thuốc sẽ bao gồm 2 thực thể, cho nên luận văn sẽ trích xuất 2 quan hệ liên quan tới vị trí của từ đến thực thể bệnh lý và đến thực thể thuốc.

Một ngưỡng min và max được đặt ra để đảm bảo nếu các từ cách quá xa thực

thể thì chúng sẽ được đặt bằng ngưỡng tối đa và ngưỡng tối thiểu này.

2.3.4. Word relation embedding

Thách thức đối với việc khai thác quan hệ y sinh là việc phát hiện và phân loại chính xác các quan hệ y sinh trong các câu phức tạp. Một số câu trong tài liệu y sinh có thể chứa một vài mệnh đề và lớn hơn 150 từ. Một số nghiên cứu chỉ ra đường dẫn phụ thuộc ngắn nhất (Shortest Dependency Path – SDP) chứa các đặc trưng cú pháp là rất quan trọng cho việc xử lý ngôn ngữ tự nhiên.

Một ví dụ về SDP như Hình 2.5 bên dưới. Hai thực thể “Hemorrhagic cystitis” và “cyclophosphamide” được xác định là có quan hệ với nhau. Từ đó chúng ta có thể vẽ được đồ thị phụ thuộc và xác định đồ thị phụ thuộc tối thiểu giữa 2 thực thể.

34

Hình 2.5 – Đồ thị quan hệ phụ thuộc và đồ thị quan hệ phụ thuộc tối thiểu [20]

Các dữ liệu về thứ tự từ phụ thuốc và thứ tự quan hệ phụ thuộc được sử dụng để

đưa vào lớp Word relation embedding làm đầu vào cho mô hình.

35

CHƯƠNG 3: THỰC NGHIỆM VÀ KẾT LUẬN

3.1. Cài đặt thực nghiệm

Để xây dựng các bước xử lý dữ liệu và cài đặt thuật toán, luận văn sử dụng ngôn ngữ lập trình Python (https://www.python.org/) và cài đặt TensorFlow (http://tensorflow.org/) , và bộ thư viện Keras (https://keras.io/)

Với bộ dữ liệu BioCreative V CDR được xử lý tách câu và gán nhãn Y/N tương

ứng với trong cặp thuốc – bệnh lý trong câu có quan hệ với nhau hay không.

Bộ dữ liệu BioCreative V CDR được chia thành 3 tập dữ liệu Training, Development, Test. Tác giả sử dụng 2 tập dữ liệu Training + Development làm đầu vào để xây dựng mô hình, sau đó kiểm thử bằng tập dữ liệu Test.

Để đảm bảo tính khách quan, việc xây dựng mô hình và kiểm tra kết quả được lặp lại >= 10 lần và lấy độ đo trung bình điều hòa F (trung bình các lần) làm đầu ra đánh giá kết quả của thuật toán.

3.1.1. Cách thức thực hiện

Hình 3.1 – Cách thức thực hiện dự đoán tác dụng phụ của thuốc

Để thực hiện dự đoán tác dụng phụ của thuốc, luận văn sử dụng bộ dữ liệu BioCreative V CDR làm đầu vào. Đây là bộ dữ liệu được thực hiện thông qua nhiệm vụ gửi trên BioCreative V. Chi tiết về bộ dữ liệu này được giới thiệu tại phần sau của luận văn.

36

Bước tiếp theo chúng ta cần phải thực hiện tiền xử lý dữ liệu. Do dữ liệu lấy về từu BioCreative V CDR là dữ liệu bao gồm tiêu đề và tóm tắt của văn bản y sinh, cho nên chúng ta sẽ thực hiện tách câu và xử lý dữ liệu để nhận biết các câu có các cặp thuốc – bệnh lý tương ứng và mối quan hệ giữa chúng (có/không). Chi tiết về việc xử lý dữ liệu đã được mô tả tại mục 2.2.4 ở trên.

Dữ liệu sau khi được tiền xử lý sẽ được đưa vào bước tiếp theo để trích chọn đặc trưng. Các đặc trưng được sử dụng trong luận văn bao gồm Word embedding, Position embedding, Word relation embedding. Chi tiết về các đặc trưng này đã được mô tả tại mục 2.3.2, 2.3.3 và 2.3.4 ở trên.

Để đảm bảo tính khách quan, sau khi dữ liệu được trích chọn đặc trưng, chúng ta sẽ thực hiện lặp đi lặp lại việc xây dựng mô hình thuật toán và kiểm tra kết quả trên tập dữ liệu test.

3.1.2. Các tham số thiết lập mô hình

Cách thức lựa chọn tham số tối ưu: Luận văn sử dụng phương pháp chạy lần lượt qua các bộ tham số và tìm ra bộ tham số có độ đo điều hòa F sau khi chạy đạt giá trị lớn nhất.

Đối với mỗi bộ tham số, mô hình sẽ được chạy lặp lại 10 lần và lấy kết quả độ đo điều hòa F trung bình của 10 lần đó làm giá trị để đánh giá các tham số là tốt hay không tốt. Giá trị độ đo điều hòa F trung bình càng cao thì càng tốt.

Sau quá trình chạy lặp lại các bộ tham số, tác giả đã tìm được bộ tham số tối ưu

như sau:

Tên tham số

Giá trị

Batch size

128

CNN hidden units

100

CNN kernel size

5

Position dimension

50

Dropout rate

0.5

LSTM units

64

Learning rate

0.001

Bảng 3.1 – Các tham số thiết lập mô hình chạy thuật toán

37

3.2. Thử nghiệm

3.2.1. Cấu hình phần cứng

Cấu hình Chỉ số

CPU

Intel(R) Core(TM) i5-8300H CPU @ 2.3 - 4 GHz

RAM 12 GB

OS Ubuntu 18.4

Bảng 3.2 – Cấu hình phần cứng chạy thử nghiệm thuật toán

3.2.2. Kết quả thực hiện khi cho mô hình học và kiểm tra trên tập dữ liệu test

Với bộ tham số tối ưu được lựa chọn ở mục 3.1.2, kết quả thu được tối ưu nhất

được thể hiện như bảng 3.3:

precision f-score recall

58.94 54.53 56.65

58.33 58.36 58.35

54.51 59.62 56.95

54.98 66.60 60.24

55.37 58.68 56.98

56.85 61.57 59.12

61.68 43.02 50.69

55.61 61.13 58.24

57.06 60.75 58.85

Giá trị trung bình 10 lần

61.30 40.44 48.73

57.46 56.47 56.96

38

Bảng 3.3 – Bảng độ đo kết quả thực hiện (lấy trung bình)

Nhìn vào số liệu tại bảng 3.3, chúng ta có thể thấy độ đo trung bình điều hòa F của mô hình đề xuất giao động trong khoảng từ [48.73-60.24], trong đó mức thấp dưới 50% chỉ có một bản ghi, còn lại từ 56% trở lên có 8 bản ghi chứng tỏ tham số mô hình chạy được sẽ có thể đạt được kết quả tốt từ 56% với xác suất lớn.

Kết quả của quá trình thử nghiệm đã đáp ứng được việc phân lớp mối quan hệ giữa các cặp thuốc và bệnh lý vào tập “Có quan hệ”, vì vậy cũng đáp ứng được mục tiêu đề ra là việc dự đoán tác dụng phụ của thuốc trên y văn.

Hình 3.2 – Đồ thị biểu diễn độ chính xác trong quá trình học của thuật

toán

Nhìn vào hình 3.2, chúng ta có thể thấy trong quá trình học của thuật toán, việc kiểm tra chéo (đường test) không tiệm cận tới độ chính xác của đường train (gần 1), chứng tỏ mô hình không bị overfitting, vì vậy mô hình đề xuất có thể đáp ứng được việc đưa vào kiểm tra với tập dữ liệu test.

So sánh mô hình đề xuất với một số mô hình khác cùng sử dụng chung tập dữ

liệu BioCreative V CDR cho bài toán dự đoán tác dụng phụ của thuốc

39

Phương thức

Hệ thống

Mô tả

P

R

F

thực

CNN+Bi-LSTM

57.46 56.47 56.96

Luận văn hiện

CNN

41.1

55.3

47.2

LSTM

54.9

51.4

53.1

Zhou và cộng sự [21]

LSTM+SVM

64.9

49.3

56.0

Machine learning không sử dụng KB

LSTM+SVM+PP

55.6

68.4

61.3

Gu và cộng sự [09] ME

62

55.1

58.3

Xu và cộng sự [19] SVM

59.6

44.0

50.7

Bảng 3.4 – Bảng so sánh kết quả của mô hình đề xuất với một số mô hình đã được nghiên cứu trước đây

Nhìn vào bảng 3.4 so sánh kết quả, ta thấy mô hình đề xuất của tác giả trong luận văn cho kết quả trung bình ở mức tương đối tốt so với các mô hình đã được đề xuất trước đó. Các độ đo của mô hình đề xuất có tính hài hòa hơn so với các mô hình còn lại.

3.3. Đánh giá

Dựa vào kết quả thực nghiệm, một số kết luật được rút ra như sau:

- Mô hình được sử dụng trong luận văn đã thành công trong việc dự đoán tác

dụng phụ của thuốc khi chạy trên tập dữ liệu BioCreative V CDR

- Khi so sánh với các thuật toán khác đã được dùng, tác giả thấy mô hình được sử dụng trong luận văn cho kết quả dự đoán khá tương đồng so với các nghiên cứu trước đây.

- Tuy nhiên kết quả còn thấp hơn so với một số thuật toán khác do cách tính kết quả cuối cùng là trung bình của các lần chạy (một số lần chạy có độ đo điều hòa F tương đối tối 58% ~60% - xuất hiện 5 lần trên tổng số 10 lần chạy).

40

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Với số lương nghiên cứu y văn ngày càng lớn, việc trích xuất thông tin một cách tự động từ kho dữ liệu khổng lồ này ngày càng quan trọng và có ý nghĩa. Rất nhiều phương pháp tiếp cận khác nhau đã được các nhà khoa học sử dụng, trong đó có các phương thức học máy đã và đang được nghiên cứu mang lại hiệu quả khá tốt.

Trong luận văn này, tác giả đã áp dụng thành công mô hình lai giữa mạng nơ ron tích chập và mạng nơ ron hồi quy áp dụng được vào việc dự đoán tác dụng phụ của thuốc từ y văn với độ chính xác khá tốt, có thể áp dụng được vào thực tế.

Trong tương lai, tác giả sẽ tiếp tục thu thập và bổ sung các phương pháp, như việc sử dụng cơ sở dữ liệu tri thức về y sinh (Knowledge Base) áp dụng cùng mô hình lai dựa trên mạng nơ ron hay việc áp dụng thêm một số đặc trưng khác để, để cải tiến hiệu năng dự đoán của thuật toán cũng như tìm cách tối ưu các tham số của thuật toán tự động để đạt được kết quả cao hơn.

41

TÀI LIỆU THAM KHẢO

Tiếng Việt

[01] PGS.TS Nguyễn Hà Nam, PGS.TS Hà Quang Thụy, PGS.TS Nguyễn Trí

Thành. (2013) “Giáo trình Khai Phá Dữ Liệu”, NXB ĐHQGHN.

Tiếng Anh

[02] Bianca Blanch, Molecular Cardiology Program, Centenary Institute of Cancer Medicine and Cell Biology, Camperdown, Australia; Sydney Medical School, University of Sydney, Camperdown, Australia. (2019) “Encyclopedia of Pharmacy Practice and Clinical Pharmacy”, http://dx.doi.org/10.1016/B978-0- 12-812735-3.00201-6

[03] Bouvy JC, De Bruin ML, Koopmanschap MA. (2015) “Epidemiology of adverse drug reactions in Europe: a review of recent observational studies.” Drug Saf; pp.437-53. https://doi.org/10.1007/s40264-015-0281-0. PMID: 25822400; PMCID: PMC4412588

Issue W1, Research,

[04] Chih-Hsuan Wei, Alexis Allot, Robert Leaman, Zhiyong Lu. (2019) “PubTator central: automated concept annotation for biomedical full text articles”, Nucleic Acids pp.587–593, 47, Volume https://doi.org/10.1093/nar/gkz389

[05] Comeau,D.C., Dogan,R.I., Ciccarese,P. et al. (2013) “BioC: a minimalist text processing”, Database interoperability for biomedical to

approach (Oxford), bat064

[06] European Commission. (2008) “Proposal for a regulation amending, as regards pharmacovigilance of medicinal products for human use. Regulation (EC) No 726/2004”, Impact assessment.

[07] Gurulingappa,H., Rajput,A.M., Roberts,A. et al. (2012) “Development of a benchmark corpus to support the automatic extraction of drug-related adverse effects from medical case reports”, J. Biomed. Inf., 45, pp.885–892

[08] Gurulingappa,H., Klinger,R., Hofmann-Apitius,M. et al. (2010) “An Empirical Evaluation of Resources for the Identification of Diseases and Adverse Effects in Biomedical Literature”, In: The 2nd Workshop on Building and evaluating resources for biomedical text mining. Valetta, Malta.

[09] Gu,J., Qian,L., and Zhou,G. (2016) “Chemical-induced disease relation extraction with various linguistic features”. Database (Oxford), baw042

[10] Hand DJ, Mannila H, Smyth P. (2001) “Principles of data mining”, MIT Press,

Massachusetts

42

[11] Hemati, W., Mehler, A. (2019) “LSTMVoter: chemical named entity recognition using a conglomerate of sequence labeling tools”, J Cheminform 11, 3. https://doi.org/10.1186/s13321-018-0327-2

[12]

I. Aizenberg, N.N. Aizenberg, and J. P.L. Vandewalle (2000). “Multi-Valued and Universal Binary Neurons: Theory, Learning and Applications”, Springer Science & Business Media

[13] Kant, A., Bilmen, J., & Hopkins, P. M. (2019). “Adverse Drug Reactions. pp.130–143. Anesthesia”, Physiology and for

Pharmacology https://doi.org/10.1016/b978-0-323-48110-6.00007-7

[14] LeCun, Y., Bengio, Y., & Hinton, G. (2015). “Deep learning. Nature,

521(7553)”, pp.436–444. https://doi.org/10.1038/nature14539

[15] Mulligen,E.M.V., Fourrier-Reglat,A., Gurwitz,D. et al. (2012) “The EU-ADR corpus: annotated drugs, diseases, targets, and their relationships”. J. Biomed. Inf., 45, pp.879–884

[16] Pennington Jeffrey, Socher Richard, Manning Christopher. (2014) “GloVe: Global Vectors for Word Representation”, Association for Computational Linguistics, https://doi.org/10.3115/v1/D14-1162

[17] Sinha S., Vohora D. (2017) “Drug Discovery and Development: An Overview”, Pharmaceutical Medicine and Translational Clinical Research, , pp. 19-32

[18] WHO. (1972) “International drug monitoring: the role of national centres”.

Tech Rep Ser WHO, no 498

[19] Xu,J., Wu,Y.H., Zhang,Y.Y. et al. (2016) “CD-REST: a system for extracting

chemical-induced disease relation in literature”, Database (Oxford), baw036

[20] Yijia Zhang, Hongfei Lin, Zhihao Yang, Jian Wang, Shaowu Zhang, Yuanyuan Sun, Liang Yang. (2018) “A hybrid model based on neural networks for biomedical relation extraction”, Journal of Biomedical Informatics, Volume 81, pp.83-92.

[21] Zhou,H.W., Deng,H., Chen,L. et al. (2016) “Exploiting syntactic and semantics information for chemical-disease relation extraction”, Database (Oxford), baw048

43

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc

Hà Nội, ngày 17 tháng 07 năm 2021

BẢN XÁC NHẬN ĐÃ SỬA CHỮA CÁC THIẾU SÓT CỦA LUẬN VĂN

Trường Đại học Công nghệ đã có Quyết định số 416/QĐ-ĐT ngày 27 tháng 05 năm 2021 về việc thành lập Hội đồng chấm luận văn Thạc sĩ cho học viên Nguyễn Đức Đông, sinh ngày 26/10/1988, tại Bắc Ninh, chuyên ngành Hệ thống thông tin, ngành Hệ thống thông tin

Ngày 10 tháng 07 năm 2021, Trường Đại học Công nghệ (ĐHCN) đã tổ chức cho học viên bảo vệ luận văn Thạc sĩ trước Hội đồng chấm (có biên bản kèm theo). Theo Quyết nghị của Hội đồng chấm luận văn Thạc sĩ, học viên phải bổ sung và sửa chữa các điểm sau đây trước khi nộp quyển luận văn cuối cùng cho Nhà trường để hoàn thiện hồ sơ sau bảo vệ:

1. Bổ sung trình bày bài toán tác dụng phụ của thuốc là gì, cách chuyển đổi việc nhận dạng thành bài toán phân lớp như thế nào, cấu trúc của tập dữ liệu ra sao, cách xử lý dữ liệu, làm tăng tính logic cũng như làm người đọc dễ hiểu hơn (tại các mục 2.1, 2.2.4)

2. Sử dụng đúng các thuật ngữ đã được sử dụng rộng rãi như “Trí tuệ nhân tạo” (mục 1.2.3.1 – trang 19), “Độ phủ”, “Trung bình điều hòa” (mục 1.2.4 – trang 23) thay cho các thuật ngữ bị sai khác.

3. Chỉnh sửa lại ngày tháng của luận văn đúng với thời điểm hiện tại (06/2021) 4. Sử dụng công thức chuẩn cho việc tính toán các độ đo precicion và recall (tại mục

1.2.4.2)

5. Chỉnh sửa tham chiếu đúng định dạng ngoặc vuông 6. Chỉnh sửa chỉ mục bị đánh sai (3.1 nhảy luôn đến 3.1.1.1), đúng là 3.1.1 7. Chỉnh sửa lại cách đánh số thứ tự các hình vẽ và bảng theo tiền tố chương 8. Bổ sung diễn dải về tập dữ liệu BioCreative V CDR trong thực nghiệm để phục vụ cho bài toán nhận dạng thực thể bệnh và thuốc và mối quan hệ giữa bệnh và thuốc (mục 2.2.3 – trang 31)

9. Bổ sung mô tả chi tiết về 2 mô hình Bi-RNN và CNN được sử dụng trong mô hình lai, bổ

sung cách thức tiến hành thực nghiệm (tại mục 2.3.1, 3.1.1, 3.1.2) 10. Bổ sung trích dẫn tại các bảng biểu, hình vẽ sử dụng trong luận văn 11. Chuẩn hóa lại phần tài liệu tham khảo theo đúng quy định 12. Bổ sung phần phân tích kết quả thu được và giải thích các bảng/hình số liệu kết quả (tại

mục 3.2.2 – trang 42,43)

13. Sửa lại bảng tóm tắt bổ sung các từ còn thiếu, sắp xếp lại theo thứ tự bảng chữ cái (trang

7)

14. Chỉnh sửa lại nội dung phần mở đầu và mục quá trình phát triển thuốc, bổ sung trích dẫn

(trang 10 và trang 12)

15. Chỉnh sửa lại định nghĩa khai phá dữ liệu đúng theo trích dẫn (trang 16) 16. Chỉnh sửa lại mục trích dẫn theo đúng quy định của nhà trường (trang 43, 44)

Ngày 17 tháng 07 năm 2021, học viên đã nộp bản luận văn có chỉnh sửa. Chúng tôi nhận thấy rằng nội dung, hình thức của luận văn và tóm tắt luận văn đã được sửa chữa, bổ sung theo các điểm trên của Quyết nghị.

Đề nghị Trường Đại học Công nghệ, ĐHQG HN cho phép học viên được làm các thủ tục

khác để được công nhận và cấp bằng Thạc sĩ. Xin trân trọng cảm ơn!

XÁC NHẬN CỦA THÀNH VIÊN HỘI ĐỒNG/HỘI ĐỒNG ĐỀ NGHỊ HỌC VIÊN SỬA CHỮA LUẬN VĂN

HỌC VIÊN

CÁN BỘ HƯỚNG DẪN

XÁC NHẬN CỦA CƠ SỞ ĐÀO TẠO