Luận văn Thạc sĩ Hệ thống thông tin: Dự đoán tác dụng phụ của thuốc từ y văn sử dụng mô hình lai dựa trên mạng nơ ron

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:51

Thêm vào BST

Báo xấu

36
lượt xem 3
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Kết cấu luận văn gồm lời mở đầu, danh mục tài liệu tham khảo, phần kết luận, luận văn có bố cục gồm 3 chương: Chương 1 - Cơ sở lý thuyết; Chương 2 - Dự đoán tác dụng phụ của thuốc; Chương 3: Thực nghiệm và kết luận. Để hiểu rõ hơn mời các bạn cùng tham khảo nội dung chi tiết của bài viết này.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Hệ thống thông tin: Dự đoán tác dụng phụ của thuốc từ y văn sử dụng mô hình lai dựa trên mạng nơ ron

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ──────── * ─────── NGUYỄN ĐỨC ĐÔNG DỰ ĐOÁN TÁC DỤNG PHỤ CỦA THUỐC TỪ Y VĂN SỬ DỤNG MÔ HÌNH LAI DỰA TRÊN MẠNG NƠ RON LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN HÀ NỘI 06 – 2021
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ──────── * ─────── NGUYỄN ĐỨC ĐÔNG DỰ ĐOÁN TÁC DỤNG PHỤ CỦA THUỐC TỪ Y VĂN SỬ DỤNG MÔ HÌNH LAI DỰA TRÊN MẠNG NƠ RON NGÀNH : CÔNG NGHỆ THÔNG TIN CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN MÃ SỐ : 8480104.01 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. ĐẶNG THANH HẢI HÀ NỘI 06 – 2021 2
LỜI CAM ĐOAN Với mục đích học tập, nghiên cứu để nâng cao kiến thức và trình độ chuyên môn nên tôi đã làm luận văn này một cách nghiêm túc và hoàn toàn trung thực. Trong luận văn tôi có sử dụng một số tài liệu tham khảo của một số tác giả. Tôi đã chú thích và nêu ra trong phần tài liệu tham khảo ở cuối luận văn. Tôi xin cam đoan và chịu trách nhiệm về nội dung và sự trung thực trong luận văn tốt nghiệp Thạc sĩ của mình. Hà Nội, ngày 20 tháng 06 năm 2021 Nguyễn Đức Đông 3
LỜI CẢM ƠN Lời đầu tiên, tôi xin chân thành cảm ơn các thầy cô giáo trong trường Đại Học Công Nghệ - Đại học Quốc Gia Hà Nội, đặc biệt là các thầy cô của khoa Công Nghệ Thông Tin đã truyền đạt cho tôi những kiến thức, kinh nghiệm vô cùng quý báu trong suốt thời gian học tập tại trường. Tôi xin gửi lời cảm ơn đến TS. Đặng Thanh Hải – giảng viên khoa Công Nghệ Thông tin – Trường Đại học Công Nghệ đã tận tình giúp đỡ và hướng dẫn tận tình trong suốt quá trình làm luận văn. Cuối cùng, tôi xin được cảm ơn đến gia đình, bạn bè đã động viên, đóng góp ý kiến và giúp đỡ trong quá trình nghiên cứu và hoàn thành luận văn. Do thời gian, kiến thức và kinh nghiệm của tôi còn hạn chế nên khóa luận không thể tránh khỏi những sai sót. Tôi hy vọng sẽ nhận được những ý kiến nhận xét, góp ý của các thầy cô giáo và các bạn để đồ án được hoàn hiện hơn. Tôi xin chân thành cảm ơn! Hà Nội, ngày 20 tháng 06 năm 2021 Nguyễn Đức Đông 4
MỤC LỤC LỜI CAM ĐOAN ................................................................................................. 3 LỜI CẢM ƠN....................................................................................................... 4 MỤC LỤC ............................................................................................................ 5 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .......................................... 7 DANH MỤC HÌNH VẼ ....................................................................................... 8 DANH MỤC BẢNG BIỂU .................................................................................. 9 MỞ ĐẦU ............................................................................................................ 10 CHƯƠNG 1: CƠ SỞ LÝ THUYẾT................................................................... 12 1.1. THUỐC VÀ QUY TRÌNH PHÁT TRIỂN THUỐC .............................. 12 1.1.1. Quy trình phát triển thuốc (Drug development process) ................. 12 1.1.2. Tác dụng phụ của thuốc ................................................................... 14 1.2. KHAI PHÁ DỮ LIỆU VÀ CÁC THUẬT NGỮ LIÊN QUAN .............. 15 1.2.1. Định nghĩa về khai phá dữ liệu ........................................................ 15 1.2.2. Bài toán phân lớp dữ liệu ................................................................. 15 1.2.3. Học sâu và mạng nơ ron................................................................... 16 1.2.4. Đánh giá mô hình phân lớp .............................................................. 20 CHƯƠNG 2: DỰ ĐOÁN TÁC DỤNG PHỤ CỦA THUỐC ............................ 21 2.1. Bài toán dự đoán tác dụng phụ của thuốc từ y văn ................................ 21 2.1.1. Bài toán nhận dạng thực thể bệnh lý và thực thể thuốc (Named Entity Recognition – NER) [11] ................................................................ 21 2.1.2. Bài toán trích xuất mối quan hệ bệnh lý do thuốc gây ra (Chemical- Induced Disease – CID) ............................................................................. 22 2.2. Bộ dữ liệu BioCreative V CDR ............................................................... 24 2.2.1. Giới thiệu về Pubmed....................................................................... 24 2.2.2. Dữ liệu quan hệ thuốc và bệnh - BioCreative V CDR ..................... 24 2.2.3. Cấu trúc kho dữ liệu BioCreative V CDR ....................................... 25 2.2.4. Cách thức xử lý dữ liệu BioCreative V CDR làm đầu vào cho bài toán trích xuất quan hệ thuốc và bệnh lý ................................................... 28 2.3. Mô hình lai dựa trên mạng nơ ron ........................................................... 31 5
2.3.1. Mô hình lai dựa trên mạng nơ ron ................................................... 31 2.3.2. Word embedding .............................................................................. 33 2.3.3. Position embedding .......................................................................... 34 2.3.4. Word relation embedding................................................................. 34 CHƯƠNG 3: THỰC NGHIỆM VÀ KẾT LUẬN .............................................. 36 3.1. Cài đặt thực nghiệm................................................................................. 36 3.1.1. Cách thức thực hiện ......................................................................... 36 3.1.2. Các tham số thiết lập mô hình .......................................................... 37 3.2. Thử nghiệm ............................................................................................. 38 3.2.1. Cấu hình phần cứng ......................................................................... 38 3.2.2. Kết quả thực hiện khi cho mô hình học và kiểm tra trên tập dữ liệu test .............................................................................................................. 38 3.3. Đánh giá................................................................................................... 40 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ......................................................... 41 TÀI LIỆU THAM KHẢO .................................................................................. 42 6
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Ký hiệu viết tắt Thuật ngữ đầy đủ Giải thích ADR Adverse drug reaction Tác dụng phụ của thuốc AI Artificial Intelligence Trí tuệ nhân tạo Mối quan hệ giữa bệnh lý và CDR Chemical-Disease Relations thuốc CID Chemical-Induced Disease Bệnh lý do thuốc gây ra CNN Convolutional neural network Mạng nơ ron tích chập DL Deep Learning Học sâu DNN Deep Neural Networks Mạng nơ ron sâu LSTM Long Short-Term Memory Mô hình bộ nhớ ngắn hạn ML Machine Learning Học máy National Center for Trung tâm quốc gia về thông NCBI Biotechnology Information tin công nghệ sinh học NER Named Entity Recognition Nhận dạng thực thể U.S National Library of NLM Thư viện Quốc gia Hoa kỳ Medicine RNN Recurrent neural network Mạng nơ ron hồi quy Dường dẫn phụ thuộc ngắn SDP Shortest Dependency Path nhất WHO World Health Organization Tổ chức y tế thế giới Ngôn ngữ đánh dấu có thể mở XML Extensible Markup Language rộng 7
DANH MỤC HÌNH VẼ Hình 1.1 – Quy trình nghiên cứu thuốc [02] ...................................................... 13 Hình 1.2 – Mối quan hệ giữa trí tuệ nhân tạo, học máy, học sâu [01] ............... 17 Hình 1.3 – Cấu trúc một nơ ron [14] .................................................................. 18 Hình 1.4 – Mô hình mạng nơ ron tích chập [14] ................................................ 18 Hình 1.5 – Mạng nơ ron hồi quy hai chiều [14] ................................................. 19 Hình 2.1 – Dữ liệu định dạng BioC của BioCreative V CDR ........................... 27 Hình 2.2 – Dữ liệu định dạng PubTator của BioCreative V CDR ..................... 28 Hình 2.3 – Biểu diễn các thực thể thuốc và bệnh lý được nhận dạng trong y văn và các cặp quan hệ thuốc và bệnh lý được phát hiện trong văn bản trên dữ liệu BioCreative V CDR ............................................................................................ 30 Hình 2.4 – Mô hình thuật toán lai dựa trên mạng nơ ron tích chập và hồi quy [20] ..................................................................................................................... 32 Hình 2.5 – Đồ thị quan hệ phụ thuộc và đồ thị quan hệ phụ thuộc tối thiểu [20] ............................................................................................................................ 35 Hình 3.1 – Cách thức thực hiện dự đoán tác dụng phụ của thuốc...................... 36 Hình 3.2 – Đồ thị biểu diễn độ chính xác trong quá trình học của thuật toán ... 39 8
DANH MỤC BẢNG BIỂU Bảng 1.1 – Các giai đoạn phát triển thuốc [16] .................................................. 14 Bảng 1.1 – Phân loại các tác dụng phụ khi sử dụng thuốc [13] ......................... 15 Bảng 2.1 – Bảng mô tả đầu vào và đầu ra đối với việc nhận dạng thực thể bệnh lý và thực thể thuốc ............................................................................................ 21 Bảng 2.2 – Bảng độ đo với các phương pháp nhận dạng thực thể bệnh lý và thực thể thuốc [11].............................................................................................. 22 Bảng 2.3 – Bảng mô tả đầu vào và đầu ra của việc trích xuất mối quan hệ giữa thuốc và bệnh ...................................................................................................... 22 Bảng 2.4 – Cấu trúc dữ liệu BioCreative V CDR .............................................. 25 Bảng 2.5 – So sánh dữ liệu BioCreative V CDR với các nguồn dữ liệu khác ... 25 Bảng 2.6 – Kết quả đầu ra của quá trình tiền xử lý dữ liệu BioCreative V CDR làm đầu vào cho mô hình phân lớp .................................................................... 31 Bảng 3.1 – Các tham số thiết lập mô hình chạy thuật toán ................................ 37 Bảng 3.2 – Cấu hình phần cứng chạy thử nghiệm thuật toán ............................ 38 Bảng 3.3 – Bảng độ đo kết quả thực hiện (lấy trung bình) ................................ 39 Bảng 3.4 – Bảng so sánh kết quả của mô hình đề xuất với một số mô hình đã được nghiên cứu trước đây ................................................................................. 40 9
MỞ ĐẦU Tác dụng phụ của thuốc là một phản ứng không mong muốn bao gồm cả có lợi và có hại khi người dùng sử dụng một hoặc một vài loại thuốc nào đó. Thông thường các nhà sản xuất thuốc sẽ có mục tác dụng không mong muốn trong hướng dẫn sử dụng thuốc để liệt kê ra danh sách các loại tác dụng phụ đã được biết đến và được xác nhận. Tuy nhiên trên thực tế có rất nhiều tác dụng phụ khác của thuốc được phát hiện trong các công trình nghiên cứu, các y văn (độ tin tưởng cao) hoặc cả trên các trang mạng xã hội (độ tin tưởng thấp hơn) nhưng chưa được liệt kê vào trong hướng dẫn sử dụng thuốc. Ở Châu Âu, tác dụng phụ của thuốc (ADRs - Adverse drug reactions) gây ra một số lượng bệnh và tử vong đáng kể [06]. Người ta ước tính rằng khoảng 5% số bệnh nhân nhập viện nguyên nhân do tác dụng phụ của thuốc, khoảng 5% bệnh nhân đang điều trị bị ảnh hưởng bới tác dụng phụ trong thời gian chữa trị, và gây ra khoảng khoảng 197,000 ca tử vong trên toàn Châu Âu [06]. Tác dụng phụ của thuốc có thể ảnh hưởng tới 77 tỉ đô la ngân sách chăm sóc sức khỏe của Mỹ mỗi năm [20] . Thông thường tác dụng phụ của thuốc được nhà sản xuất nghiên cứu và đưa ra trong quá trình phát triển thuốc và được tổng hợp dựa vào báo cáo trực tiếp của người dùng cho nhà sản xuất thuốc. Ngoài ra cũng còn một cách khác là nhà sản xuất sẽ chủ động phân tích các văn bản y sinh nói về thuốc của mình để tìm xem nghiên cứu đó có chỉ ra tác dụng phụ nào hay không. Nguồn văn bản đáng tin cậy nhất thường được sử dụng là những y văn, đó là những văn bản thuộc về lĩnh vực y sinh. Nhưng đây là một công việc vô cùng tốn thời gian, tốn kém và rất khó để lọc ra tất cả các dữ liệu liên quan mới nhất trong các y văn được công bố hàng ngày, hàng giờ. Theo số lượng được công bố trên Pubmed (https://pubmed.ncbi.nlm.nih.gov/), số lượng bài báo được công bố hàng năm ngày càng tăng lên điển hình như năm 2020 có ~1,6 triệu văn bản y khoa được công bố. Đây là một nguồn tư liệu rất quý giá và mang tính khoa học cao. Nếu sử dụng được nguồn dữ liệu này để thực hiện phân tích một cách tự động sẽ mang lại lợi ích rất lớn. Mạng nơ ron tích chập và mạng nơ ron hồi quy là 2 mạng nơ ron được sử dụng nhiều trong các bài toán trích xuất quan hệ y sinh, và mỗi mạng nơ ron đều có các điểm mạnh riêng. Bằng cách kết hợp các điểm mạnh của 2 mô hình mạng nơ ron tích chập và mạng nơ ron hồi quy để tận dụng các điểm mạnh của mỗi loại, chúng ta có thể xây dựng được các mô hình tốt hơn cho bài toán trích xuất quan hệ này. Và đó cũng là lý do tác giả quyết định chọn đề tài “Dự đoán tác dụng phụ của thuốc từ y văn sử dụng mô hình lai dựa trên mạng nơ ron” để thực hiện phân tích các tác dụng phụ của thuốc từ y văn. 10
Luận văn có bố cục gồm 3 chương chính: Chương 1: Cơ sở lý thuyết Chương này giới thiệu tổng quan thuốc, quá trình chế tạo thuốc, tác dụng phụ của thuốc và cơ sở lý thuyết về các phương pháp khai phá dữ liệu văn bản. Chương 2: Dự đoán tác dụng phụ của thuốc Chương này sẽ mô tả một cách chi tiết về bài toán dự đoán tác dụng phụ của thuốc và việc xây dựng bộ dữ liệu tác dụng phụ của thuốc, cách thức biến đổi dữ liệu, trích chọn đặc trưng dữ liệu Chương 3: Thực nghiệm và kết luận Chương này sẽ trình bày việc áp dụng các mô hình phân lớp sử dụng mô hình lai dựa trên mạng nơ ron để dự tác dụng phụ của thuốc và đánh giá mô hình đạt được so với các phương pháp khác. Cuối cùng là một số kết luận và hướng phát triển trong tương lai 11
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 1.1. THUỐC VÀ QUY TRÌNH PHÁT TRIỂN THUỐC 1.1.1. Quy trình phát triển thuốc (Drug development process) Nghiên cứu chế tạo thuốc (Drug discovery) là một quá trình nhằm xác định một phân tử tổng hợp nhỏ hoặc một phân tử sinh học lớn để đánh giá toàn diện xem đó có phải là một ứng cử viên thuốc tiềm năng hay không. Quy trình nghiên cứu chế tạo thuốc hiện đại bao gồm việc nhận dạng căn bệnh cần điều trị và nhu cầu y tế chưa được đáp ứng của nó, lựa chọn các phân tử mục tiêu có thể tạo thành thuốc và xác nhận nó, phát triển thử nghiệm trong phòng thí nghiệm nghiệm, phát triển các hợp chất trong ống nghiệm để thể hiện khả năng và tính hiệu quả trong các mô hình sinh học. Sau đó, các hợp chất được tối ưu hóa hơn nữa để cải thiện hiệu quả và dược động học của chúng trước khi chúng tiến tới phát triển thuốc. [17] Quá trình phát triển thuốc (Drug development) có thể được tách biệt thành các giai đoạn phát triển tiền lâm sàng và lâm sàng. Trong quá trình phát triển tiền lâm sàng, các nghiên cứu dược lý học về độc tính và an toàn của ứng viên thuốc được thực hiện để thiết lập nồng độ an toàn tối đa ở động vật và xác định khả năng tác dụng phụ của thuốc đang phát triển. Ngoài ra, các nghiên cứu được thực hiện để hoàn thiện các quy trình hiệu quả về chi phí cần thiết để sản xuất thuốc cũng như quyết định công thức tốt nhất của nó. Nếu ứng cử viên thuốc thể hiện đủ hiệu quả và an toàn trong đánh giá tiền lâm sàng, thì cơ quan quản lý dược phẩm sẽ xin phép để bắt đầu phát triển lâm sàng trong đó tính an toàn và hiệu quả của thuốc được đánh giá trong các nghiên cứu thí điểm và then chốt. [17] 12
Nghiên cứu tiền lâm sàng Giai đoạn thử nghiệm lâm sàng GĐ1: Xác định GĐ2: Xác định GĐ3: Chứng minh tính ưu việt của GĐ4: Kiểm soát sau khi đưa mức độ an toàn mức độ hiệu quả thuốc so với các phương pháp cơ bản vào sử dụng Hình 1.1 – Quy trình nghiên cứu thuốc [02] Việc khám phá và phát triển các loại thuốc cải tiến đòi hỏi nhiều thời gian và chi phí và hiện tại khoảng 12 năm và trung bình cần 1,8 tỷ đô la để tung ra một loại thuốc mới. [17] Quá trình phát triển thuốc ở giai đoạn lâm sàng chia ra thành bốn giai đoạn như bảng 1.1 sau: Giai đoạn Mục đích Quy mô Thời gian Giai đoạn I: Xác Kiểm tra tính an toàn của 20-80 người Vài tuần định mức độ an thuốc trên những người khỏe mạnh toàn khỏe mạnh Giai đoạn II – Xác Kiểm tra mức độ hiệu quả >= 100 người Vài tháng định mức độ hiệu của thuốc trên tập nhỏ bị bệnh quả những người bệnh Giai đoạn III – So sánh tính ưu việc của >= 1000 Một vài Chứng minh tính ưu thuốc mới so với các người bị năm việt của thuốc so phương pháp chăm sóc bệnh, chia với các điều kiện tiêu chuẩn hiện tại làm 2 nhóm 13
chăm sóc cơ bản Giai đoạn IV – Theo dõi hiệu quả và độ Phụ thuộc vào Phụ thuộc Kiểm soát sau khi an toàn của thuốc sau khi thực tế vào thực đưa vào sử dụng đưa vào sử dụng tế Bảng 1.1 – Các giai đoạn phát triển thuốc [2] 1.1.2. Tác dụng phụ của thuốc 1.1.2.1. Định nghĩa Có rất nhiều định nghĩa về tác dụng phụ của thuốc khác nhau đã được đưa ra, nhưng trong luận văn này sử dụng định nghĩa của WHO về phản ứng có hại của thuốc, đã được sử dụng trong khoảng 30 năm, đó là “phản ứng tiêu cực và không theo ý muốn đối với một loại thuốc xảy ra ở liều lượng thường được sử dụng cho con người dùng để dự phòng, chẩn đoán hoặc điều trị bệnh, hoặc sửa đổi chức năng sinh lý” [18] 1.1.2.2. Phân loại các tác dụng phụ của thuốc Các phản ứng có hại của thuốc được phân thành sáu loại: liên quan đến liều lượng (Augmented), không liên quan đến liều lượng (Bizarre), liên quan đến liều lượng và liên quan đến thời gian (Chronic), liên quan đến thời gian (Delayed), liên quan sau khi ngừng thuốc (End of use), và liên quan thất bại của liệu pháp (Failure). [13] Loại tác dụng phụ Đặc trưng Cách thức xử lý - Giảm liều hoặc Liên quan đến liều - Phổ biến dừng lại lượng (Augmented) - Liên quan đến tác dụng dược lý - Xem xét tác dụng của thuốc của liệu pháp đồng - Tỷ lệ tử vong thấp thời - Có thể dự đoán được - Dừng lại và không Không liên quan đến - Không phổ biến sử dụng trong tương liều lượng (Bizarre) - Không liên quan đến tác dụng lai dược lý của thuốc - Tỷ lệ tử vong cao - Không dự đoán được - Giảm liều hoặc Liên quan đến liều - Không phổ biến ngừng sử dụng lượng và liên quan đến - Liên quan tới sự tích lũy liều lượng - Việc dừng thuốc có thời gian (Chronic) thể kéo dài - Thường khó chữa Liên quan đến thời gian - Không phổ biến (Delayed) - Thường liên quan tới liều lượng 14
- Xảy ra hoặc trở nên rõ ràng một thời gian sau khi sử dụng thuốc - Dùng lại thuốc và Liên quan sau khi - Không phổ biến giảm dần ngừng thuốc (End of - Xảy ra sau quá trình sử dụng thuốc use) - Tăng liều lượng Liên quan thất bại của - Phổ biến - Xem xét các tác liệu pháp (Failure) - Liên quan tới liều lượng dụng phụ của liệu - Thường do tương tác thuốc pháp đồng thời Bảng 1.2 – Phân loại các tác dụng phụ khi sử dụng thuốc [13] 1.2. KHAI PHÁ DỮ LIỆU VÀ CÁC THUẬT NGỮ LIÊN QUAN 1.2.1. Định nghĩa về khai phá dữ liệu Xác định một ngành khoa học luôn là một nhiệm vụ gây tranh cãi; các nhà nghiên cứu thường không đồng ý về phạm vi chính xác và giới hạn của lĩnh vực nghiên cứu của họ. Bởi vậy, có thể có những định nghĩa khác về khai phá dữ liệu, nhưng trong luận văn này sử dụng định nghĩa về khai phá dữ liệu như sau: Khai phá dữ liệu là việc phân tích các tập dữ liệu quan sát (thường lớn) để tìm ra các mối quan hệ chính xác và tóm tắt dữ liệu theo những cách mới một cách dễ hiểu và hữu ích cho người sở hữu dữ liệu. Các mối quan hệ và tóm tắt thu được từ một công việc khai phá dữ liệu thường được gọi là mô hình hoặc mẫu. Ví dụ như phương trình tuyến tính, quy tắc, cụm, đồ thị, cấu trúc cây và các mẫu lặp lại theo thời gian. Định nghĩa trên đề cập đến “Dữ liệu quan sát” (Obserrvational data) trái ngược với “Dữ liệu thử nghiệm” (Experrimental data). Khai phá dữ liệu thường xử lý dữ liệu đã được thu thập cho một số mục đích khác ngoài phân tích khai phá dữ liệu (ví dụ như, đó là những dữ liệu được thu thập vì mục đích duy trì các hồ sơ về tất cả giao dịch ngân hàng luôn được cập nhật mới nhất) [10] 1.2.2. Bài toán phân lớp dữ liệu 1.2.2.1. Giới thiệu về bài toán phân lớp Bài toán phân lớp là một bài toán xuất hiện thường xuyên trong cuộc sống hàng ngày. Về cơ bản bài toán phân lớp là một quá trình phân chia các đối tượng để mỗi đối tượng được gán vào trong một lớp, và không bao giờ có trường hợp nào một đối tượng được gán vào trong nhiều hơn một lớp.[9] Có nhiều bài toán phân lớp dữ liệu như 15
- Phân lớp nhị phân: Là bài toán gán nhãn dữ liệu cho đối tượng vào một trong hai lớp khác nhau. Ví dụ như bài toán phân lớp khách hàng muốn/không muốn mua một sản phẩm trong cửa hàng - Phân lớp đa lớp: Là bài toán phân lớp dữ liệu vào số lượng lớp lớn hơn 2. Ví dụ như bài toán phân lớp chủ thể trong bức ảnh vào các nhóm cây cối, ô tô, xe đạp,… 1.2.2.2. Quá trình xây dựng mô hình phân lớp dữ liệu Quá trình phân lớp dữ liệu bao gồm các bước sau: - Bước 1: Tạo tập dữ liệu huấn luyện và tập dữ liệu kiểm tra: Đây là một bước rất quan trọng ảnh hướng tới độ chính xác của thuật toán - Bước 2: Tiền xử lý dữ liệu và xác định các đặc trưng của dữ liệu sẽ được sử dụng trong mô hình phân lớp - Bước 3: Xây dựng mô hình phân lớp - Bước 4: Đánh giá mô hình và tối ưu hóa tham số của mô hình 1.2.3. Học sâu và mạng nơ ron 1.2.3.1. Giới thiệu Trí tuệ nhân tạo (Artificial Intelligence - AI) đề cập đến trí thông minh do máy móc đạt được, trái ngược với trí thông minh tự nhiên của con người. Trí tuệ nhân tạo được con người thiết kế ra để giải quyết một số công việc cụ thể. Học máy (Machine Learning) là một tập con các phương thức bên trong AI, đặc biệt đề cập đến các thuật toán và mô hình số được thiết lập để phân tích dữ liệu và lấy hoặc học khả năng ra quyết định để đạt được một số nhiệm vụ nhất định. Mục tiêu của nó là phát hiện ra các mô hình ẩn trong dữ liệu dưới các ràng buộc dữ liệu, ví dụ như kích thước dữ liệu và chất lượng, cho phép giải quyết được các vấn đề đang được quan tâm. Học sâu (Deep Learning - DL), được giới thiệu bởi Aizenberg và cộng sự (2000) [12] là một nhóm các phương thức trong học máy. Bởi vậy, mục đích của các phương pháp học sâu cũng tương tự như học máy. 16
Trí tuệ nhân tạo Học máy Học sâu Hình 1.2 – Mối quan hệ giữa trí tuệ nhân tạo, học máy, học sâu [01] Điểm khác biệt giữa học sâu và các phương pháp học máy khác là học sâu sử dụng mô hình phân cấp quy mô lớn với kiến trúc nhiều lớp để tự động tạo ra các biểu diễn toàn diện và tìm hiểu các mẫu phức tạp vốn có từ dữ liệu. Ngược lại các phương pháp học máy cơ bản đều phải lựa chọn các đặc trưng được trích xuất thủ công từ dữ liệu làm đầu vào và dựa vào các mô hình tương đối đơn giản để biểu diễn các mẫu dữ liệu vốn có. Trong những năm gần đây, học sâu ngày càng trở lên phổ biến trong nghiên cứu và ứng dụng bởi vì tính khả thi với các thuật toán tiên tiến, sức mạnh tính toán cao và khả năng sẵn sàng với tập dữ liệu lớn, cũng như hiệu năng ấn tượng so với các thuật toán học máy truyền thống. 1.2.3.2. Mạng nơ ron Mô hình được sử dụng phổ biến nhất trong học sâu là mạng nơ ron sâu (Deep Neural Networks – DNN) [14] với một lượng lớn lớp. Thành phần cơ bản xây dựng lên DNN là các nơ ron được thiết kế dựa trên nơ ron hệ thần kinh của con người. Mỗi nơ ron nhân tạo sẽ bao gồm các thành phần chính sau: Một nhóm tín hiệu đầu vào, một hàm tuyến tính, một hàm không tuyến tính, và tín hiệu đầu ra 17
Hàm tuyến tính Hàm kích hoạt không tuyến tính Đầu vào Đầu ra Hình 1.3 – Cấu trúc một nơ ron [14] Mỗi nơ ron sẽ lấy dữ liệu từ đầu vào và trước tiên sử dụng hàm tuyến tính để xử lý chúng. Kết quả sau đó được cho vào một hàm kích hoạt, thường là một hàm không tuyến tính, và trả về kết quả đầu ra. Thông thường một mạng nơ ron học sâu bao gồm nhiều lớp. Mỗi nơ ron là một lớp sẽ nhận t hông tin từ các lớp trước đó, xử lý chúng và trả về kết quả cho các lớp tiếp theo. Bất kỳ lớp nào được nhúng giữa đầu vào của DNN và đầu ra được gọi là lớp ẩn (hidden layer) Một số loại mạng nơ ron sâu điển hình có thể kể đến mạng nơ ron kết nối đầy đủ (Fully connected deep neural network), mạng nơ ron tích chập (Convolutional neural network – CNN), mạng nơ ron hồi quy (Recurrent neural network – RNN) 1.2.3.3. Mạng nơ ron tích chập Mạng nơ ron tích chập (Convolutional neural network – CNN) [14] : Mạng nơ ron tích chập bao gồm một tập hợp các lớp tích chập được chồng lên nhau và sử dụng các hàm kích hoạt không tuyến tính như ReLU hay tanh. Fully Output INPUT CNN1 Pooling CNN2 Pooling connected classification cat Hình 1.4 – Mô hình mạng nơ ron tích chập [14] Phép tích chập sử dụng một hạt nhân và biến đổi với dữ liệu của các lớp trước để tạo ra một dữ liệu mới, gọi là các dữ liệu đặc trưng và cung cấp chúng cho các lớp tiếp theo. Các hoạt gộp, như gộp tối đa (max-pooling) hoặc là gộp trung bình (average- pooling) có thể được thêm vào sau khi tích chập để giảm kích thước của các đặc trưng. Điều này cho phép mô hình giảm chi phí tính toán và phân tích dữ liệu ở nhiều mức độ 18
khác nhau. Ngoài các lớp này, mạng nơ ron tích chập cũng có thể kết hợp với các mạng nơ ron khác và hoạt động bình thường 1.2.3.4. Mạng nơ ron hồi quy Mạng nơ ron hồi quy [14] là mạng nơ ron có cơ chế phản hồi trong các lớp ẩn. Do tính chất lặp lại, một mạng nơ ron hồi quy có thể được xem tương đương như một chuỗi các mạng sếp chồng lên nhau có cấu trúc giống nhau. Mạng nơ ron hồi quy được thiết kế để học hiệu quả từ dữ liệu tuần tự, chẳng hạn như văn bản, lời nói, dữ liệu chuỗi thời gian. Cấu trúc ban đầu của mạng nơ ron hồi quy được phát hiện chỉ được giới hạn trong các chuỗi dữ liệu ngắn gây ra hiện tượng không ổn định trong việc truyền bộ nhớ từ các lần lặp trước. Để giảm thiếu vấn đề này, một mô hình bộ nhớ ngắn hạn (long short-term memory – LSTM) được đề xuất, bổ sung thêm các chơ chế để ghi nhớ và giải phóng các thông tin trước đây, thêm mới dữ liệu vào bộ nhớ và tính toán đầu ra mong muốn cho lần lặp đó. Với những sửa đổi này, mô hình bộ nhớ ngắn hạn có khả năng học và thực hiện trên các chuỗi dữ liệu dài hơn nhiều và đã thay thế phần lớn mạng nơ ron hồi quy cơ bản cho hầu hết các tác vụ hiện đại. OUTPUT y t-1 y t y t+1 BACKWARD h t-1 h t h t+1 FORWARD h t-1 h t h t+1 INPUT x t-1 x t x t+1 Hình 1.5 – Mạng nơ ron hồi quy hai chiều [14] Trong khi mô hình bộ nhớ ngắn hạn là một trong những mô hình phổ biến nhất của mạng nơ ron hồi quy, một mạng khác cũng được phát triển đó là mạng nơ ron hồi quy hai chiều (Bi-directional RNN) 19
1.2.4. Đánh giá mô hình phân lớp 1.2.4.1. Khái niệm Để đánh giá mô hình phân lớp có hiệu quả hay không chúng ta cần phải dựa vào một số tiêu chí cơ bản như độ chính xác, độ phủ hay độ đo điều hòa F,… Các độ đo trên thường được tính toán dựa trên tập dữ liệu kiểm định (test data). Giả sử đầu ra của mô hình khi đầu vào là tập dữ liệu kiểm định được mô tả bởi vector vpredict và vector đầu ra đúng của tập kiểm tra là vtrue. Và để đánh giá mô hình, ta cần so sánh giữa 2 vector này với nhau. [01] 1.2.4.2. Độ chính xác & độ phủ (Precision & Recall) Độ chính xác đối với lớp 𝑐i : 𝑖 𝑇𝑃 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛𝑖 = 𝑇𝑃 +𝐹𝑃 (1) 𝑖 𝑖 Trong đó: 𝑇𝑃𝑖 là số phần tử của lớp 𝑐i được dự đoán đúng, 𝐹𝑃𝑖 là số phần tử được dự đoán vào lớp 𝑐i nhưng bị sai Độ phủ đối với lớp 𝑐i : 𝑇𝑃 𝑖 𝑅𝑒𝑐𝑎𝑙𝑙𝑖 = 𝑇𝑃 +𝐹𝑁 (2) 𝑖 𝑖 Trong đó: 𝑇𝑃𝑖 là số phần tử của lớp 𝑐i được dự đoán đúng, 𝐹𝑁𝑖 là số phần tử đúng của lớp 𝑐i nhưng lại được dự đoán vào lớp khác 1.2.4.3. Độ đo trung bình điều hòa F Độ đo trung bình điều hòa F của các tiêu chí Precision và Recall: - Độ đo trung bình điều hòa F có xu hướng lấy giá trị gần với giá trị nào nhỏ hơn giữa hai giá trị Precision và Recall. - Độ đo trung bình điều hòa F có giá trị lớn nếu cả hai giá trị Precision và Recall đều lớn. Tiêu chí đánh giá là sự kết hợp của 2 tiêu chí đánh giá Precision và Recall theo công thức: 2 𝑥 𝑃𝑟𝑒𝑠𝑖𝑠𝑖𝑜𝑛 𝑖 𝑥 𝑅𝑒𝑐𝑎𝑙𝑙𝑖 𝐹𝑖 = (3) 𝑃𝑟𝑒𝑠𝑖𝑠𝑖𝑜𝑛𝑖 +𝑅𝑒𝑐𝑎𝑙𝑙𝑖 Trong đó 𝐹𝑖 là độ đo trung bình điều hòa của lớp 𝑐𝑖 , 𝑃𝑟𝑒𝑠𝑖𝑠𝑖𝑜𝑛 𝑖 và 𝑅𝑒𝑐𝑎𝑙𝑙𝑖 chính là giá trị được tính bởi công thức (1) và (2) 20