intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn Thạc sĩ ngành Máy tính: Nghiên cứu một số phương pháp khai phá dữ liệu phát hiện phản ứng có hại của thuốc

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:75

30
lượt xem
5
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn trình bày các nội dung chính sau: Giới thiệu: giới thiệu chung về lĩnh vực cảnh giác dược, giới thiệu tổng quan về khai phá dữ liệu, tổng quan và mục tiêu của đề tài; Một số phương pháp khai phá dữ liệu phát hiện phản ứng có hại của thuốc (ADR); Thử nghiệm các phương pháp khai phá dữ liệu phát hiện phản ứng có hại của thuốc (ADR).

Chủ đề:
Lưu

Nội dung Text: Luận văn Thạc sĩ ngành Máy tính: Nghiên cứu một số phương pháp khai phá dữ liệu phát hiện phản ứng có hại của thuốc

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ Nguyễn Thị Hà NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU PHÁT HIỆN PHẢN ỨNG CÓ HẠI CỦA THUỐC LUẬN VĂN THẠC SĨ: NGÀNH MÁY TÍNH Hà Nội – 2021
  2. BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ Nguyễn Thị Hà NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU PHÁT HIỆN PHẢN ỨNG CÓ HẠI CỦA THUỐC Chuyên ngành: Hệ thống thông tin Mã số: 8480104 LUẬN VĂN THẠC SĨ: NGÀNH MÁY TÍNH CÁN BỘ HƯỚNG DẪN KHOA HỌC Hướng dẫn 1: TS. Trần Mạnh Tuấn Hướng dẫn 2: TS. Nguyễn Như Sơn Hà Nội – Năm 2021
  3. Lời cam đoan Tôi xin cam đoan luận văn này là do tôi thực hiện, không sao chép lại của người khác. Nội dung trong luận văn là của cá nhân nghiên cứu và được tổng hợp từ nhiều nguồn tài liệu, các tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn đúng quy cách. Nếu có gì sai sót, tôi xin chịu mọi trách nhiệm. Hà nội, 03/2021 Nguyễn Thị Hà
  4. Lời cảm ơn Tôi xin dành sự biết ơn chân thành đến TS. Trần Mạnh Tuấn, Giảng viên Khoa Công nghệ thông tin, Trường Đại học Thủy Lợi – Người thầy đã trực tiếp hướng dẫn và tận tình chỉ bảo tôi trong quá trình thực hiện khóa luận. Tôi xin cảm ơn TS. Nguyễn Như Sơn, Trưởng phòng CNTT, Viện Công nghệ thông tin – Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã góp ý, hướng dẫn và cung cấp tài liệu để tôi hoàn thành tốt luận văn này. . Tôi xin cảm ơn toàn thể giảng viên Học viện Khoa học và Công nghệ đã truyền đạt cho tôi những kiến thức và kỹ năng nghiên cứu trong suốt quá trình học tập tại Trường. Cuối cùng, tôi xin chân thành cảm ơn gia đình và bạn bè, những người đã luôn ủng hộ và giúp đỡ tôi trong thời gian học tập và thực hiện khóa luận. Với khả năng của mình, tôi đã cố gắng hoàn thành luận văn của mình tốt nhất, nhưng chắc chắn luận văn vẫn còn nhiều thiếu sót, tôi rất mong nhận được thêm góp ý và chỉ bảo từ phía quý thầy cô và các bạn.
  5. Danh mục các ký hiệu và chữ viết tắt Tên viết tắt Ý nghĩa WHO Tổ chức Y tế Thế giới (World Health Organization) FDA Cục Quản lý Thực phẩm và Dược phẩm Hoa Kỳ (U.S Food and Drug Administration) TNLS Thử nghiệm lâm sàng UMC Trung tâm giám sát Uppsala WHO-UCM Trung tâm giám sát Uppsala (UMC) của Tổ chức Y tế Thế giới (WHO) (World Health Organization-Uppsala Monitoring Center) ADR Phản ứng có hại của thuốc (Adverse Drug Reaction) NSD Người sử dụng CSDL Cơ sở dữ liệu KPDL Khai phá dữ liệu Trung tâm Trung tâm Quốc gia về thông tin thuốc và DI&ADR Quốc gia theo dõi phản ứng có hại của thuốc
  6. Danh mục các bảng Bảng 1.1 – Các thành phần chính của hệ thống .............................................. 22 Bảng 2.1 - Thống kê số dữ liệu theo thuốc R và phản ứng T ......................... 25 Bảng 2.2 - Thống kê dữ liệu theo thuốc R và phản ứng T .............................. 30 Bảng 2.3 - Thống kê dữ liệu theo Thuốc R và phản ứng T ............................ 34 Bảng 3.1 - Bảng dữ liệu một vài bản ghi trong bộ dữ liệu. ............................ 41 Bảng 3.2 – Danh sách thuốc có số lần xuất hiện nhiều nhất........................... 43 Bảng 3.3 – Danh sách 50 ADR có số lần xuất hiện nhiều nhất ...................... 48
  7. Danh mục các hình vẽ, đồ thị Hình 1.1 - Quy trình khám phá tri thức........................................................... 10 Hình 1.2 - Các bước của quá trình khai phá dữ liệu ....................................... 12 Hình 1.3 - Mục đích chính của khai phá dữ liệu ............................................. 13 Hình 1.4 - Mô hình mô tả giai đoạn phân lớp ................................................. 14 Hình 1.5 - Ví dụ về phân tích khai phá dữ liệu mô tả ..................................... 16 Hình 1.6 - Mô tả giai đoạn gom cụm sử dụng khai phá dữ liệu mô tả .......... 16 Hình 1.7 - Mô tả giai đoạn khai phá luật kết hợp của bài toán giỏ hàng ........ 17 Hình 1.8 – Kiến trúc tổng thể .......................................................................... 22 Hình 3.1 – Dữ liệu ADR trong hệ thống ......................................................... 51 Hình 3.2 – Kết quả khai phá dữ liệu Apriori với độ hỗ trợ 70 ....................... 52 Hình 3.3 – Kết quả phương pháp WHO-UCM với độ hỗ trợ 70 .................... 53 Hình 3.4 – Kết quả phương pháp FDA với độ hỗ trợ 70 ................................ 56 Hình 3.5 – Kết quả khai phá dữ liệu Apriori với độ hỗ trợ 80 ....................... 58 Hình 3.6 – Kết quả phương pháp WHO-UCM với độ hỗ trợ 80 .................... 59 Hình 3.7 – Kết quả phương pháp FDA với độ hỗ trợ 80 ................................ 61 Hình 3.8 – Kết quả khai phá dữ liệu Apriori với độ hỗ trợ 100 ..................... 62 Hình 3.9 – Kết quả phương pháp WHO-UCM với độ hỗ trợ 100 .................. 63 Hình 3.10 – Kết quả phương pháp FDA với độ hỗ trợ 100 ............................ 64
  8. 1 MỤC LỤC MỞ ĐẦU ......................................................................................................... 3 CHƯƠNG 1: GIỚI THIỆU ........................................................................... 5 1.1. GIỚI THIỆU CHUNG VỀ LĨNH VỰC CẢNH GIÁC DƯỢC ...... 5 1.1.1. Hoạt động cảnh giác dược tại Việt Nam [4] ............................. 5 1.1.2. Hoạt động cảnh giác dược tại Mỹ ............................................. 6 1.1.3. Hoạt động cảnh giác dược của tổ chức y tế thế giới [6] ........... 7 1.2. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ...................................... 9 1.2.1. Giới thiệu chung ........................................................................ 9 1.2.2. Giới thiệu về Khai phá dữ liệu ................................................ 10 1.2.3. Ý nghĩa và vai trò của Khai phá dữ liệu ................................. 17 1.2.4. Bài toán khai phá dữ liệu ........................................................ 18 1.3. TỔNG QUAN VÀ MỤC TIÊU CỦA ĐỀ TÀI ............................. 19 1.3.1. Tổng quan của đề tài ............................................................... 19 1.3.2. Mục tiêu của đề tài .................................................................. 20 1.3.3. Phương pháp thực hiện ........................................................... 20 1.3.4. Công cụ, ngôn ngữ lập trình.................................................... 21 CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP PHÁT HIỆN PHẢN ỨNG CÓ HẠI CỦA THUỐC ....................................................................................... 24 2.1. BÀI TOÁN PHÁT HIỆN PHẢN ỨNG CÓ HẠI CỦA THUỐC . 24 2.2. SỬ DỤNG THUẬT TOÁN KHAI PHÁ DỮ LIỆU APRIORI ĐỂ PHÁT HIỆN PHẢN ỨNG CÓ HẠI CỦA THUỐC ................................. 25 2.2.1. Một số khái niệm trong luật kết hợp ....................................... 25 2.2.2. Khai phá luật kết hợp .............................................................. 26 2.2.3. Thuật toán Apriori ................................................................... 27 2.3. NGHIÊN CỨU VÀ ÁP DỤNG PHƯƠNG PHÁP FDA ĐỂ GIẢI BÀI TOÁN PHÁT HIỆU ADR ................................................................ 29 2.3.1. Giới thiệu chỉ số thống kê RR ................................................. 29 2.3.2. Nghiên cứu phương pháp FDA ............................................... 30 2.3.3. Thuật toán áp dụng .................................................................. 32
  9. 2 2.4. NGHIÊN CỨU VÀ ÁP DỤNG PHƯƠNG PHÁP WHO-UMC ĐỂ TÌM RA PHẢN ỨNG CÓ HẠI CỦA THUỐC ........................................ 33 2.4.1. Giới thiệu chỉ số thống kê OR ................................................ 33 2.4.2. Nghiên cứu phương pháp WHO-UCM ................................... 34 2.4.3. Thuật toán áp dụng .................................................................. 36 CHƯƠNG 3: THỬ NGHIỆM CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU PHÁT HIỆN PHẢN ỨNG CÓ HẠI CỦA THUỐC ......................... 38 3.1. ÁP DỤNG CÁC THUẬT TOÁN CHO BÀI TOÁN PHÁT HIỆN TÍN HIỆU .................................................................................................. 38 3.2. MÔ TẢ DỮ LIỆU THỬ NGHIỆM............................................... 40 3.3. CÁC BƯỚC THỰC HIỆN THỬ NGHIỆM ................................. 51 3.4. KẾT QUẢ THỬ NGHIỆM ........................................................... 52 3.4.1. Thử nghiệm lần 1 .................................................................... 52 3.4.2. Thử nghiệm lần 2 .................................................................... 57 3.4.3. Thử nghiệm lần 3 .................................................................... 62 3.4.4. Kết luận ................................................................................... 64 CHƯƠNG 4: KẾT LUẬN VÀ KIẾN NGHỊ ............................................... 66 4.1. KẾT LUẬN. ....................................................................................... 66 4.2. ĐỊNH HƯỚNG PHÁT TRIỂN ĐỀ TÀI ............................................ 66
  10. 3 MỞ ĐẦU Trong những năm gần đây, các phương tiện lưu trữ có dung lượng ngày càng lớn, các hệ quản trị cơ sở dữ liệu ngày càng nhiều, cung cấp cho người dùng khả năng lưu trữ không giới hạn. Dữ liệu tuy nhiều nhưng giá trị tri thức mà nó chứa đựng lại chưa được sử dụng một cách hiệu quả. Với những thành công trong các công trình nghiên cứu về lĩnh vực khai phá dữ liệu, con người đã khai thác được những giá trị tri thức từ các dữ liệu được lưu trữ, và sử dụng chúng để giải quyết nhiều bài toán trong các lĩnh vực quan trọng trong đời sống. Trong ngành y tế, mục đích của dùng thuốc là chữa bệnh, phòng bệnh, phục hồi, điều chỉnh chức năng của cơ thể, làm giảm triệu chứng bệnh, chẩn đoán bệnh, phục hồi hoặc nâng cao sức khoẻ cho con người. Tuy nhiên, mặt trái của thuốc là có thể gây ra các phản ứng có hại ở nhiều mức độ, thậm chí tử vong kể cả khi dùng đúng liều, đúng quy định [1]. Theo định nghĩa của Tổ chức Y tế thế giới (WHO), ADR (Adverse Drug Reactions) là “phản ứng gây hại đáng kể hoặc bất lợi xảy ra sau một can thiệp có liên quan đến việc sử dụng thuốc. Một phản ứng có hại có thể là cơ sở để dự đoán được mức độ nguy hại của việc sử dụng thuốc này để phòng, điều trị, điều chỉnh liều hoặc ngừng thuốc” [2]. Cũng theo WHO, các phản ứng có hại của thuốc với mức độ nghiêm trọng có thể xảy ra ở bất kỳ liều dùng nào, khi phản ứng có hại xảy ở mức độ nặng có thể gây ra tử vong, nguy hại đến tính mạng, ở thể nhẹ hơn nó có thể làm cho người bệnh nhập viện hoặc kéo dài thời gian nằm viện, gây ra tàn tật hoặc suy giảm chức năng vĩnh viễn, gây dị tật bẩm sinh hoặc khiếm khuyết khi sinh [3]. Các vấn đề liên quan đến ADR được coi là trọng tâm của các nghiên cứu Cảnh giác Dược, do đó hầu hết các quốc gia đều có trung tâm hoặc đơn vị cảnh giác dược để tiến hành phân tích, theo dõi ADR. Ở Việt Nam, thông tin về phản ứng phụ của thuốc trong quá trình điều trị (báo cáo ADR) xảy ra tại các cơ sở khám chữa bệnh trên cả nước được gửi về trung tâm Cảnh giác dược Quốc gia. Dựa vào các số liệu ADR của các cơ sở khám chữa bệnh, Trung tam Cảnh giác dược Quốc gia phân tích phát hiện tín hiệu của những ADR
  11. 4 mới và những ADR nghiêm trọng để từ đó đưa ra khuyến cáo trong việc sử dụng thuốc an toàn, hợp lý. Việc áp dụng thuật toán khai phá dữ liệu đối với kho dữ liệu báo cáo ADR tại Trung tâm cảnh giác dược là một nhu cầu cần thiết, có tính thực tế và hiệu quả cao trong việc sàng lọc, phát hiện sớm các thuốc có khả năng có phản ứng ADR. Hiện nay có rất nhiều thuận toán khai phá dữ liệu, tuy nhiên trong phạm vi nghiên cứu của đề tài này chỉ tập trung nghiên cứu và áp dụng thuận toán khai phá dữ liệu Apriori, kết hợp với các phương pháp WHO- UCM và phương pháp FDA để tìm ra luật kết hợp từ đó đưa ra các cảnh báo về các phản ứng có hại của thuốc. Do đó, mục tiêu của luận văn là ứng dụng phương pháp khai phá dữ liệu và 2 phương pháp WHO-UCM, phương pháp FDA để phát hiện phản ứng có hại của thuốc nhằm hỗ trợ cán bộ nghiệp vụ trong lĩnh vực cảnh giác dược trong việc dự báo những thuốc có khả năng có những phải ứng có hại, từ đó có những phân tích sâu hơn để đưa ra kết luận chính xác về các phản ứng có hại của thuốc và cơ sở để quyết định ngừng sử dụng hoặc khuyến cáo cách dùng thuốc có các phản ứng ADR. Bố cục của luận văn được trình bày trong 3 chương như sau: Chương 1: Giới thiệu: giới thiệu chung về lĩnh vực cảnh giác dược, giới thiệu tổng quan về khai phá dữ liệu, tổng quan và mục tiêu của đề tài. Chương 2: Một số phương pháp khai phá dữ liệu phát hiện phản ứng có hại của thuốc (ADR). Chương 3: Thử nghiệm các phương pháp khai phá dữ liệu phát hiện phản ứng có hại của thuốc (ADR). Kết luận và kiến nghị
  12. 5 CHƯƠNG 1: GIỚI THIỆU 1.1. GIỚI THIỆU CHUNG VỀ LĨNH VỰC CẢNH GIÁC DƯỢC 1.1.1. Hoạt động cảnh giác dược tại Việt Nam [4] Cảnh giác dược (Pharmacovigilance), theo Tổ chức Y tế Thế giới, được định nghĩa là “Môn khoa học và hoạt động chuyên môn liên quan đến việc phát hiện, đánh giá, hiểu và phòng tránh biến cố bất lợi hoặc bất kỳ một vấn đề nào khác liên quan đến thuốc”. Phản ứng có hại của thuốc (ADR - Adverse Drug Reactions) là tác dụng không mong muốn của thuốc xảy ra trong quá trình sử dụng lâm sàng. Phản ứng có hại của thuốc xảy ra gần như hàng ngày trong các cơ sở khám chữa bệnh và có thể ảnh hưởng xấu đến chất lượng điều trị của bệnh nhân, nó có thể làm cho tình hình bệnh tật của bệnh nhân xấu đi và có thể là tử vong. Phản ứng có hại của thuốc có thể làm giảm chất lượng, hiệu quả điều trị bệnh của các cớ sở khám chữa bệnh. Cũng có nhiều các trường hợp bệnh nhân nhập viện có liên quan đến các phản ứng ADR. Bệnh nhân điều trị nội trú có ít nhất một lần có phản ứng ADR trong suốt quá trình điều trị cũng chiếm một tỉ lệ cao. Tỷ lệ mắc ADR thực tế có thể còn lớn hơn rất nhiều con số báo cáo từ các cơ sở khám chữa bệnh vì một số ADR có triệu chứng, trạng thái giống với các bệnh thông thường và do đó có thể không bị phát hiện và hoặc không được báo cáo. Do ADR có mức độ ảnh hưởng lớn đến quá trị điều trị bệnh nên các phản ứng có hại của thuốc cần được nhanh chóng xác định và quản lý để hạn chế tác dụng gây hại cho bệnh nhân. Cảnh giác dược liên quan đến việc nghiên cứu các thương tích liên quan đến thuốc và đưa ra khuyến nghị hoặc khuyến cáo cho các đại lý dược phẩm; nó bao gồm việc phát hiện, đánh giá, hiểu và phòng ngừa ADR. Dược sĩ đóng một vai trò quan trọng trong tất cả các bước của quy trình cảnh giác dược, dược sĩ có thể ngăn ngừa người bệnh dùng thuốc không đúng cách hoặc dùng thuốc không chính đáng. Ngoài việc giữ gìn sự an toàn và chất lượng cuộc sống cho người bệnh, cảnh giác dược có thể làm tiết kiệm chi
  13. 6 phí khám chữa bệnh cho người bệnh và tổ chức chăm sóc sức khỏe. Bằng cách báo cáo các ADR đã biết hoặc nghi ngờ, dược sĩ, các chuyên gia chăm sóc sức khỏe khác và người bệnh có thể hỗ trợ xác định mô hình và xu hướng, điều này có thể dẫn đến sự giám sát theo quy định hoặc thậm chí rút thuốc không có tỷ lệ lợi ích rủi ro thuận lợi. Tại Việt Nam, Trung tâm Quốc gia về Thông tin thuốc và Theo dõi phản ứng có hại của thuốc, có tên viết tắt là “Trung tâm ADR&DI Quốc gia” được thành lập ngày 9/6/2009 và có trụ sở tại 13 phố Lê Thánh Tông, Hai Bà Trung Hà nội. Ngày 01/03/2011, thành lập Trung tâm khu vực về thông tin thuốc và theo dõi phản ứng có hại của thuốc trực thuộc Bệnh viện Chợ Rẫy, có tên viết tắt là "Trung tâm khu vực về DI & ADR thành phố Hồ Chí Minh". Nhiệm vụ chính của hệ thống Cảnh giác Dược Việt Nam là thu thập và quản lý các báo cáo về liên quan đến tính an toàn của thuốc; phát hiện, xử lý và thông báo về tính an toàn của thuốc; đánh giá và quản lý các nguy cơ liên quan đến thuốc. 1.1.2. Hoạt động cảnh giác dược tại Mỹ FDA - Food and Drug Administration, là một cơ quan thuộc Bộ Y tế và Dịch vụ Nhân sinh Hoa Kỳ được thành lập vào năm 1906, FDA có trách nhiệm bảo vệ sức khỏe cộng đồng bằng cách đảm bảo sự an toàn, hiệu quả và bảo mật của thuốc và thuốc thú y, vắc-xin và các sản phẩm sinh học khác cho người và các thiết bị y tế. Cơ quan này cũng chịu trách nhiệm về sự an toàn và an ninh của nguồn cung cấp thực phẩm, mỹ phẩm, thực phẩm bổ sung, các sản phẩm phát ra bức xạ điện tử và điều tiết các sản phẩm thuốc lá [5]. FDA yêu cầu các nhà sản xuất thuốc báo cáo ADR cho Phòng Dịch tễ và Giám sát Dịch tễ học của FDA; đa số các báo cáo ADR mà cơ quan FDA nhận được là từ các nhà sản xuất dược phẩm. Trong số báo cáo ADR còn lại, thì số lượng báo cáo ADR nhiều nhất là từ các dược sĩ của các cơ sở khám chữa bệnh. Các quy định của FDA đã được sửa đổi vào năm 1985 để xác
  14. 7 định cụ thể các ADR báo cáo và quy trình báo cáo; các nhà sản xuất được yêu cầu báo cáo trong vòng 15 ngày phản ứng nghiêm trọng và không có nhãn. Đối với các loại thuốc mới được phê duyệt, các báo cáo về ADR phải được gửi hàng quý trong ba năm; sau đó, báo cáo hàng năm là bắt buộc. Bất kỳ sự gia tăng tần số của các phản ứng nghiêm trọng, có nhãn phải được báo cáo. Các phản ứng nghiêm trọng không được liệt kê trong ghi nhãn sản phẩm phải được báo cáo cho các sản phẩm được bán trên thị trường trước năm 1962 mà các ứng dụng thuốc mới hoặc các ứng dụng thuốc mới viết tắt không được nộp. Thông tin ADR mà FDA nhận được được mã hóa thành các thuật ngữ tiêu chuẩn và được nhập vào cơ sở dữ liệu trên máy vi tính để các nhà đánh giá thực hiện đánh giá. Nếu nghi ngờ một phản ứng quan trọng, báo cáo được nhập vào hệ thống theo dõi để theo dõi thêm. Thông tin về ADR được truyền đạt tới các chuyên gia chăm sóc sức khỏe trong việc dán nhãn sản phẩm và trong tài liệu. Dược sĩ được khuyến khích báo cáo các phản ứng nghi ngờ nghiêm trọng và không có nhãn với FDA để cộng đồng y tế và công chúng có thể hưởng lợi từ thông tin hiện tại về an toàn thuốc. 1.1.3. Hoạt động cảnh giác dược của tổ chức y tế thế giới [6] World Health Organization-Uppsala Monitoring Center (viết tắt là WHO-UCM) là Trung tâm giám sát Uppsala (UMC) của Tổ chức Y tế Thế giới (WHO), đặt tại Uppsala, Thụy Điển, là tên của Trung tâm hợp tác tổ chức y tế thế giới về giám sát ma túy quốc tế. UMC hoạt động bằng cách thu thập, đánh giá và truyền đạt thông tin từ các trung tâm cảnh giác dược quốc gia của các nước thành viên liên quan đến lợi ích, tác hại, hiệu quả và rủi ro của thuốc. UMC được thành lập vào năm 1978 để hỗ trợ Chương trình giám sát ma túy quốc tế của WHO, bắt đầu vào năm 1968 như là một phản ứng toàn cầu đối với thảm kịch thalidomide. Chương trình đã tìm cách thu thập thông tin về tác dụng phụ của thuốc từ càng nhiều nguồn càng tốt trên khắp thế giới, để đảm bảo rằng những dấu hiệu nguy hiểm đầu tiên có thể xảy ra từ thuốc sẽ không bị bỏ lỡ. Công việc của UMC là:
  15. 8 - Phối hợp Chương trình giám sát ma túy quốc tế của WHO và hơn 100 quốc gia thành viên. - Để thu thập, đánh giá và truyền đạt thông tin từ các quốc gia thành viên về lợi ích, tác hại và rủi ro của thuốc và các chất khác được sử dụng trong y học để cải thiện liệu pháp bệnh nhân và sức khỏe cộng đồng trên toàn thế giới. - Hợp tác với các nước thành viên trong việc phát triển và thực hành khoa học về cảnh giác dược. Nghiên cứu của UMC bao gồm chủ yếu ba lĩnh vực: khám phá dựa trên dữ liệu (đặc biệt là kỹ thuật thống kê), phân tích tỷ lệ không tương xứng, phát hiện tương tác, mô hình và phát hiện trường hợp trùng lặp), giám sát và báo hiệu an toàn (trong đó phụ thuộc vào thuốc và sử dụng nhi khoa) và phân tích rủi ro lợi ích. Vai trò của UMC trong lĩnh vực an toàn thuốc không phải là không có tranh cãi đối với cả các cơ quan dược phẩm và các công ty dược phẩm, mặc dù đã tiếp cận theo hướng mở, sẵn sàng tham gia với nhiều bên trong thế giới dược phẩm. WHO-UCM có mối liên quan chặt chẽ đến với các nước đang phát triển và các khu vực khác nơi cảnh giác dược chưa được xử lý. Phản ứng có hại của thuốc (ADR) là bất kỳ phản ứng độc hại và ngoài ý muốn đối với thuốc xảy ra ở liều thường được sử dụng ở người để điều trị dự phòng, chẩn đoán, điều trị hoặc điều chỉnh chức năng sinh lý. ADR được coi là một trong những nguyên nhân hàng đầu gây bệnh tật và tử vong. Đánh giá nguyên nhân là đánh giá khả năng một điều trị cụ thể là nguyên nhân của một tác dụng phụ quan sát được. Nó đánh giá mối quan hệ giữa điều trị bằng thuốc và sự xuất hiện của một tác dụng phụ. Nó là một thành phần quan trọng của cảnh giác dược, góp phần đánh giá tốt hơn các hồ sơ lợi ích rủi ro của thuốc và là một phần thiết yếu để đánh giá các báo cáo ADR trong các hệ thống cảnh báo sớm và cho các mục đích quy định. Đánh giá nguyên nhân của ADR có thể được thực hiện bởi các bác sĩ lâm sàng,
  16. 9 các học giả, ngành công nghiệp dược phẩm, và các nhà quản lý và trong các môi trường khác nhau, bao gồm cả các thử nghiệm lâm sàng. Ở cấp độ cá nhân, các nhà cung cấp dịch vụ chăm sóc sức khỏe đánh giá quan hệ nhân quả một cách không chính thức khi xử lý ADR ở bệnh nhân để đưa ra quyết định liên quan đến trị liệu. Cơ quan quản lý đánh giá các báo cáo ADR tự phát, trong đó đánh giá nguyên nhân có thể giúp phát hiện tín hiệu và hỗ trợ trong các quyết định lợi ích rủi ro liên quan đến thuốc. Các thuật toán, được cấu trúc các hệ thống được thiết kế đặc biệt để xác định ADR, về mặt lý thuyết sẽ đưa ra quyết định khách quan hơn về quan hệ nhân quả. Các đánh giá nguyên nhân khách quan dựa trên bốn nguyên tắc cơ bản - đủ điều kiện theo thời gian, phản ứng và kết quả, kiểm tra lại và kết quả, và các yếu tố gây nhiễu. 1.2. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.2.1. Giới thiệu chung - Vào những năm 1960 con người đã bắt đầu sử dụng các thuật toán để khai phá cơ sở dữ liệu. Vì lượng dữ liệu ngày càng nhiều và con người cần tìm ra được những giá trị thực sự trong lượng dữ liệu khổng lồ đó.[7] - Khoa học công nghệ càng phát triển thì việc đẩy mạnh nghiên cứu và áp dụng các thuật toán thu thập, lưu trữ và xử lý dữ liệu, giúp phát triển tích cực cho nhiều lĩnh vực hơn nữa trong đời sống. - Lượng thông tin ngày càng nhiều đòi hỏi các thiết bị để đáp ứng khả năng lưu trữ cũng phải nhiều hơn chính vì thế mà thông tin được lưu trữ trên các thiết bị như đĩa, băng từ, đĩa CD-ROM,… cũng tăng lên. Lượng thông tin trên các hệ thống tin học cũng tăng lên từ đó tạo lên nhiều bộ cơ sở dữ liệu lớn hơn. - Cuối thập kỉ 80 sự phát triển bùng nổ của các CSDL, nguồn dữ liệu khổng lồ phát triển nhanh chóng đã tạo ra sự bùng nổ thông tin
  17. 10 trên toàn cầu. Lượng thông tin quá nhiều mà con người thì cần những giá trị trong nguồn dữ liệu đó đã tạo lên những nhu cầu thiết yếu để khai thác giá trị dữ liệu cốt lõi trong đó. - Bước đầu tiếp cận nguồn dữ liệu và tạo ra những giá trị mới để cung cấp thông tin có chất lượng cao cho các tổ chức tài chính, thương mại, khoa học,… - Lượng dữ liệu khổng lồ này sẽ đem lại nhiều giá trị bởi vì thông tin là có ý nghĩa quyết định trong mọi hoạt động quản lý, kinh doanh của tổ chức, đơn vị,… 1.2.2. Giới thiệu về Khai phá dữ liệu - Khai phá dữ liệu là một lĩnh vực nhằm tự động khai thác những thông tin, tri thức có tính tiềm ẩn, hữu ích từ những cơ sở dữ liệu lớn cho các đơn vị, tổ chức, doanh nghiệp,…[7] - Có thể định nghĩa: Khai phá dữ liệu là một quá trình tìm kiếm, phát hiện các tri thức mới, tiềm ẩn, hữu dụng trong cơ sở dữ liệu lớn.[7] 1.2.2.1. Quy trình khám phá tri thức trong cơ sở dữ liệu Hình 1.1 - Quy trình khám phá tri thức
  18. 11 - Trích chọn dữ liệu: là tìm ra những tập dữ liệu có ý nghĩa từ các tập dữ liệu lớn ban đầu. Ví dụ, từ CSDL về bán hàng, ta chọn ra các dữ liệu về khách hàng, đơn đặt hàng, hoá đơn. - Tiền xử lý dữ liệu:  Làm sạch dữ liệu: làm sạch và làm giàu dữ liệu. Làm đầy đủ dữ liệu, xử lý nhiễu, những vấn đề không nhất quán, v.v. Ví dụ, một khách hàng có thể được lưu ở nhiều bản ghi có thể có những tên, địa chỉ khác nhau, cần phải chỉnh sửa để đảm bảo nhất quán và chính xác về khách hàng đó. Những dữ liệu khác nhau về khuôn dạng, đơn vị đo lường,… cần phải có những qui định thống nhất và cách chuyển về một dạng chung.  Rút gọn dữ liệu: Thực hiện bằng các thuật toán phân nhóm, phương pháp nén dữ liệu, lấy mẫu,…  Rời rạc hóa dữ liệu: Thực hiện bằng các thuật toán histograms, entropy, phân khoảng,… - Biến đổi dữ liệu: thực hiện mã hoá và xử lý dữ liệu nhằm tự động hoá việc biến đổi và di chuyển dữ liệu. - Khai phá dữ liệu: thực hiện phân tích và ra quyết định với mục đích chọn ra các mẫu tin, những mối quan hệ trong dữ liệu. - Biểu diễn tri thức và đánh giá:  Những mẫu tin và mối liên hệ trong dữ liệu được chuyển dạng và biểu diễn dưới dạng như: dạng đồ thị, dạng bảng, dạng cây,…  Khi đã có tri thức ta có thể đánh giá những tri thức này theo những tiêu chí nhất định. Ví dụ: Đưa ra tri thức của một loại thuốc thì cần đảm bảo loại thuốc đó có điều trị đúng bệnh hay chưa, đồng thời có gây ra những biểu hiện bệnh mới hay không.
  19. 12 Quy trình khám phá tri thức là chuỗi lặp nhiều lần gồm các bước được nêu bên trên. 1.2.2.2. Các bước của quá trình khai phá dữ liệu Các bước của quá trình khai phá dữ liệu bao gồm các bước như “hình 1.2 - Các bước của quá trình khai phá dữ liệu” Hình 1.2 - Các bước của quá trình khai phá dữ liệu 1.2.2.3. Các kỹ thuật áp dụng và mục đích chính trong khai phá dữ liệu Khám phá tri thức trong CSDL là một lĩnh vực liên ngành gồm: Tổ chức dữ liệu, học máy, trí tuệ nhân tạo, thống kê, thu thập tri thức hệ chuyên gia,… Các kỹ thuật Học máy áp dụng trong Khai phá dữ liệu: Học có giám sát (Supervised Learning): Học có giám sát là nhiệm vụ học máy của việc học một hàm ánh xạ đầu vào thành đầu ra dựa trên các cặp đầu vào - đầu ra mẫu. Một thuật toán học có giám sát sẽ phân tích dữ liệu đào tạo và tạo ra một hàm suy ra, có thể được sử dụng để ánh xạ các ví dụ mới. Một kịch bản tối ưu sẽ cho phép thuật toán xác định chính xác các nhãn lớp cho các trường hợp không nhìn thấy. Điều này đòi hỏi thuật toán học tập phải khái quát hóa từ dữ liệu huấn luyện để không nhìn thấy các tình huống theo cách "hợp lý". Trong học máy có giám sát sẽ sử dụng phương pháp chính là: phân lớp và dự đoán.
  20. 13 Học phi giám sát (Unsupervised Learning): Phương pháp học tập được giám sát cho rằng nhãn có sẵn cho tất cả các mẫu đào tạo. Trong học tập bán tự động (SSL), bên cạnh dữ liệu được dán nhãn, người ta cho rằng cũng có những dữ liệu chưa được gắn nhãn có sẵn tại thời điểm đào tạo. Mục tiêu của các phương thức SSL là trích xuất thông tin từ dữ liệu chưa được gắn nhãn có thể tạo điều kiện cho việc học một mô hình phân biệt đối xử với hiệu suất cao hơn Trong học máy không giám sát sẽ sử dụng phương pháp chính là: phân cụm, có nghĩa là đối tượng được xếp theo từng cụm. Luật kết hợp (association rules): Là phát hiện những mối quan hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu, các mối quan hệ đó chính là các luật kết hợp và biểu diễn tri thức ở dạng khá đơn giản. Ví dụ: “60% nữ giới vào siêu thị nếu mua phấn thì có tới 80% trong số họ sẽ mua thêm son”. Mục đích chính của khai phá dữ liệu là trích rút tri thức một cách tự nhiên, hiệu quả và “thông minh” từ kho dữ liệu, những tri thức được chiết xuất sẽ mang lại những lợi ích có tính cạnh tranh trên thương trường và trong nghiên cứu khoa học. Do đó, khai phá dữ liệu chính là là mô tả (description) và dự đoán (prediction). Hình 1.3 - Mục đích chính của khai phá dữ liệu Dự đoán là việc sử dụng các biến hoặc các trường trong CSDL để trích xuất ra các hình mẫu, dự đoán những giá trị chưa biết hoặc những giá
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
51=>0