intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn Thạc sĩ Hệ thống thông tin: Dự báo dịch sốt xuất huyết bằng phương pháp học máy

Chia sẻ: Matroinho | Ngày: | Loại File: PDF | Số trang:56

27
lượt xem
6
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn "Dự báo dịch sốt xuất huyết bằng phương pháp học máy" được hoàn thành với mục tiêu nhằm nghiên cứu hệ thống hoá cơ sở khoa học trong dự báo; ứng dụng các kỹ thuật khai phá dữ liệu, học máy làm cơ sở xây dựng các mô hình dự báo dịch bệnh có kết hợp với các yêu tố dân số, môi trường, khí hậu dựa trên nguồn dữ liệu chuyên ngành thu thập được.

Chủ đề:
Lưu

Nội dung Text: Luận văn Thạc sĩ Hệ thống thông tin: Dự báo dịch sốt xuất huyết bằng phương pháp học máy

  1. ỦY BAN NHÂN DÂN TỈNH BÌNH DƢƠNG TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN BÌNH MINH DỰ BÁO DỊCH SỐT XUẤT HUYẾT BẰNG PHƢƠNG PHÁP HỌC MÁY LUẬN VĂN THẠC SỸ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ NGÀNH: 8480104 BÌNH DƢƠNG, NĂM 2019
  2. ỦY BAN NHÂN DÂN TỈNH BÌNH DƢƠNG TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN BÌNH MINH DỰ BÁO DỊCH SỐT XUẤT HUYẾT BẰNG PHƢƠNG PHÁP HỌC MÁY LUẬN VĂN THẠC SỸ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ NGÀNH: 8480104 NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. MAI HOÀNG BẢO ÂN BÌNH DƢƠNG, NĂM 2019
  3. LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của cá nhân tôi, xuất phát từ nhu cầu thực tế trong quá trình học tập, nghiên cứu cũng nhƣ công tác tại Sở Y tế Bình Dƣơng. Dữ liệu sử dụng trong nghiên cứu đƣợc thu thập từ Trung tâm Y tế Dự phòng tỉnh Bình Dƣơng, Trung tâm quan trắc, môi trƣờng tỉnh và đã đƣợc sự chấp thuận, cho phép sử dụng bằng văn bản của lãnh đạo cơ quan trên. Tất cả các tham khảo từ các nghiên cứu liên quan đều đƣợc dẫn nguồn cụ thể, rõ ràng. Nội dung, kết quả nghiên cứu luận văn là nỗ lực của bản thân và chƣa từng đƣợc công bố trong các công trình nghiên cứu khoa học nào khác. Tác giả Nguyễn Bình Minh
  4. LỜI CẢM ƠN Trong quá trình học tập, nghiên cứu và thực hiện luận văn “Dự báo dịch sốt xuất huyết trên địa bàn tỉnh Bình Dƣơng bằng phƣơng pháp học máy”, tôi đã nhận đƣợc nhiều sự hỗ trợ, giúp đỡ từ phía thầy cô, các cá nhân và tổ chức sau: Trƣớc hết, tôi xin chân thành cảm ơn và tri ân sâu sắc đến Thầy PGS.TS Lê Tuấn Anh - Phó Hiệu trƣởng Phụ trách Đại học Thủ Dầu Một đã luôn dõi theo động viên, dẫn dắt tôi và các bạn đồng môn khai phá tầm nhìn, hƣớng cho chúng tôi tiếp cận các lĩnh vực nghiên cứu mới vừa khoa học, vừa gần gũi thực tiễn cuộc sống. Đặc biệt, để hoàn thành luận văn này, tôi xin chân thành cảm ơn sâu sắc đến Thầy TS. Mai Hoàng Bảo Ân - Viện John Von Neumann đã tận tâm dìu dắt, hƣớng dẫn, góp ý, chỉnh sửa để tôi hoàn thành luận văn này. Tôi cũng xin đƣợc gửi lời cảm ơn đến Ban Giám hiệu nhà trƣờng, Phòng đào tạo Sau Đại học, các Thầy, Cô trong Khoa K thuật - Công nghệ, Trƣờng Đại học Thủ Dầu Một đã tạo mọi điều kiện và môi trƣờng học tập, nghiên cứu thuận lợi nhất. Xin cảm ơn tất cả Thầy, Cô là giảng viên thỉnh giảng đã tâm huyết không ngại đƣờng xa để truyền đạt cho chúng tôi những kiến thức và kinh nghiệm vô c ng quý giá trong học tập và nghiên cứu khoa học. Tôi cũng trân trọng cảm ơn các chuyên gia y tế của Trung tâm Y tế Dự phòng tỉnh Bình Dƣơng, cảm ơn lãnh đạo Trung tâm quan trắc môi trƣờng tỉnh đã hỗ trợ, giúp đỡ nhiệt tình trong việc thu thập dữ liệu và chia sẻ các kiến thức về chuyên môn trong công tác dự báo và phòng chống dịch bệnh Sốt xuất huyết. Xin cảm ơn ngƣời thân, gia đình đã luôn ủng hộ, động viên, tạo điều kiện thuận lợi cho tôi hoàn thành văn này. Một lần nữa xin tri ân và trân trọng cảm ơn tất cả mọi ngƣời. h u t ng 20/3/2019 Tác giả Nguyễn Bình Minh
  5. DANH MỤC CÁC TỪ VIẾT TẮT, CÁC KÝ HIỆU TỪ VIẾT TẮT TIẾNG ANH TIẾNG VIỆT WHO World Health Organization Tổ chức Y tế thế giới TTYTDP Centers for Disease Control Trung tâm Y tế dự phòng and Prevention hoặc (Trung tâm kiểm soát, phòng ngừa dịch bệnh) SXH Fever Sốt xuất huyết SXHD Dengue Fever Sốt xuất huyết Dengue KPDL Data Mining Khai phá dữ liệu CSDL Database Cơ sở dữ liệu KDD Knowledge Discovery in Phát hiện tri thức trong cơ sở Database dữ liệu GIS Geographic Information Hệ thống thông tin địa lý System SVM Support vector machine Máy véc tơ hỗ trợ RF Random Forests Rừng ngẫu nhiên DT Decission Trees Cây quyết định LR Linear Regression Hồi quy tuyến tính BI Breteau index chỉ số vật chứa nƣớc có lăng quăng muỗi Aedes DI chỉ số mật độ muỗi vằn
  6. DANH SÁCH CÁC BẢNG BIỂU T n ản Trang Bản 1 : Bảng kết quả mô hình phân lớp của nhóm tác giả Ngọc Anh 14 Bản 2 : Bảng kết quả mô hình học máy của nhóm tác giả Đại học 15 Công nghệ Kumaraguru. Bản 3: Bảng nhận xét nhóm các mô hình dự báo dịch bệnh. 24 Bản 4 : Kết quả thực nghiệm với các thuật toán hồi quy 37 Bản 5 : Kết quả thực nghiệm với các thuật toán phân lớp 38 Bản 6 : Độ tƣơng quan của các thuộc tính 39 Bản 7 : Bảng so sánh kết quả hồi quy của chúng tôi với các NC khác 40 Bản 8 : Bảng so sánh kết quả phân lớp của chúng tôi với các NC khác 40
  7. DANH SÁCH CÁC HÌNH Tên n Trang Hình 1: Quá trình KPDL, phát hiện tri thức 9 H n 2 : Biểu đồ kết quả mô hình hồi quy của nhóm tác giả Ngọc Anh 14 H n 3: Sơ đồ Quy trình học máy 18 Hình 4: Mô hình Random Forests 20 H n 5: Mô hình dự đoán sử dụng Random Forest 22 Hình 6: Lƣu đồ xây dựng mô hình dự báo dịch dựa trên hồi quy, phân lớp 26 Hình 7: Mô hình thực nghiệm dựa trên hồi quy 27 Hình 8: Mô hình thực nghiệm dựa trên phân lớp 27 Hình 9: Sơ đồ quá trình thu thập, tiền xử lý dữ liệu thực nghiệm 32 H n 10 : Sơ đồ tổng quát quá trình mô tả dữ liệu, quá trình thu thập, tìm 35 hiểu, xử lý dữ liệu H n 11 : Biểu đồ so sánh độ chính xác của mô hình hồi quy 37 H n 12 : Biểu đồ so sánh độ chính xác của mô hình phân lớp 38 H n 13 : Biểu đồ tƣơng quan của các thuộc tính tác động lên ca bệnh SXH 39
  8. MỤC LỤC LỜI CẢM ƠN ...............................................................................................................iv DANH MỤC CÁC TỪ VIẾT TẮT, CÁC KÝ HIỆU .................................................v DANH SÁCH CÁC BẢNG BIỂU ...............................................................................vi DANH SÁCH CÁC HÌNH ......................................................................................... vii MỞ ĐẦU .........................................................................................................................1 Tính cấp thiết của đề tài .................................................................................... 1 Mục tiêu nghiên cứu .......................................................................................... 2 Đối tƣợng và phạm vi nghiên cứu, phƣơng pháp nghiên cứu: ......................... 2 CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN .................................................................5 1.1. Tổng quan về tỉnh Bình Dƣơng.................................................................. 5 1.2. Tổng quan về dịch bệnh SXH tại Việt Nam và tỉnh Bình Dƣơng. ............ 6 1.3 Tổng quan về phát hiện tri thức và khai phá dữ liệu................................... 7 1.3.1 Các phƣơng pháp khai phá dữ liệu....................................................... 9 1.3.2 Mốt số ứng dụng của phát hiện tri thức, khai phá dữ liệu ................. 11 CHƢƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN ....................................................13 2.1 Các nghiên cứu liên quan đến dự báo dịch bệnh dựa trên khai phá dữ liệu. ......................................................................................................................... 13 2.2 Một số k thuật xây dựng mô hình dự báo. .............................................. 15 2.2.1 Dự báo dựa trên khai phá Luật kết hợp: ............................................ 15 2.2.2 Dự báo bằng k thuật học máy hồi qui và phân lớp .......................... 17 2.2.2.1 Hồi qui tuyến tính (Linear Regression – LR): ............................ 19 2.2.2.3 Rừng ngẫu nhiên (Random Forests - RF): .................................. 20 2.2.2.4 Máy vector hỗ trợ (Support Vector Machines - SVM): .............. 23 2.2.2.5 Naïve Bayes: ............................................................................... 23 2.3 Một số nhóm mô hình dự báo dịch bệnh thƣờng gặp: .............................. 24 CHƢƠNG 3: XÂY DỰNG MÔ HÌNH DỰ BÁO, THỰC NGHIỆM. ....................26 3.1 Đề xuất phƣơng pháp xây dựng mô hình dự báo dịch sốt xuất huyết. ..... 26 3.2. Đánh giá độ chính xác của thuật toán và mô hình dự báo ....................... 28 3.3. Thực nghiệm mô hình. ............................................................................. 31
  9. 3.3.1 Nguồn dữ liệu: .................................................................................... 31 3.3.2. Tìm hiểu, mô tả và tiền xử lý dữ liệu: ............................................... 32 3.3.3 Thực nghiệm ...................................................................................... 36 KẾT LUẬN ..................................................................................................................42 1. Nội dung nghiên cứu và kết quả đạt đƣợc .............................................. 42 2. Định hƣớng phát triển : ........................................................................... 44 TÀI LIỆU THAM KHẢO........................................................................................... 45
  10. MỞ ĐẦU Tín cấp t iết của đề tài Bình Dƣơng là một trong những tỉnh công nghiệp với tốc độ phát triển đô thị hóa nhanh, kèm với đó là tình hình bệnh sốt xuất huyết cũng tăng nhanh theo. Số ca mắc bệnh ngày càng cao hàng năm và không theo chu kỳ nhất định mà diễn biến ngày một phức tạp. Trong vòng 10 năm từ 2007-2017 đã có nhiều đợt dịch lớn xảy ra vào các năm 2008, 2012 và 2015, 2017; số ca mắc và tử vong cao nhất nhì khu vực phía Nam. Trong bối cảnh tình hình dịch bệnh ngày càng diễn biến phức tạp, luôn là vấn đề quan tâm hàng đầu của ngành y tế, trong khi việc thực hiện triển khai các nghiên cứu, các giải pháp phòng chống dịch thƣờng bị hạn chế về cả thời gian lẫn nguồn lực. Việc nghiên cứu các mô hình khai phá dữ liệu, học máy trong dự báo dịch bệnh là một trong những giải pháp có khả năng giải quyết đƣợc tính phức tạp của bài toán dự báo dịch bệnh với chi phí thấp. Ở Việt Nam, ứng dụng khai phá dữ liệu, học máy trong dự báo dịch bệnh còn là một lĩnh vực mới mẻ. Số lƣợng, chất lƣợng nghiên cứu, ứng dụng lĩnh vực này cho dự báo dịch bệnh trong y tế còn hạn chế trong khi nhu cầu thiết lập các chƣơng trình, chính sách y tế gắn với sự phát triển của khoa học máy tính đang ngày một gia tăng. Trong những năm qua, nguồn dữ liệu đƣợc thu thập, lƣu trữ trong lĩnh vực y tế gia tăng ngày một lớn, bên cạnh những dữ liệu khác nhƣ khí hậu, thời tiết, dân cƣ ...v.v... Điều này đã mang đến cơ hội mới cho phân tích, dự báo nói chung và dự báo dịch bệnh trong ngành y tế nói riêng. Do đó, việc nghiên cứu áp dụng các k thuật học máy, đề xuất mô hình dự báo dịch bệnh dựa vào nguồn dữ liệu chuyên ngành hiện có, kết hợp xem xét các yếu tố liên quan tới sự xuất hiện và lan truyền dịch bệnh là rất cần thiết nhằm góp phần cảnh báo sớm, ngăn chặn sự b ng phát, lây lan của dịch bệnh; giúp các cơ quan có chức năng quản lý và hoạch định chính sách, kiểm soát dịch bệnh 1
  11. tiếp cận với một hƣớng khác mới hơn trong công tác dự báo, phòng chống dịch ngoài các phƣơng pháp truyền thống. Xuất phát ý tƣởng từ nhu cầu công tác, học tập, nghiên cứu có liên quan đến lĩnh vực học máy; bên cạnh đó tác giả đƣợc tiếp cận với nguồn dữ liệu thực tế bệnh sốt xuất huyết đƣợc lƣu trữ nhiều năm qua tại Bình Dƣơng, từ đó vấn đề đƣợc tác giả đặt ra là : Dựa vào nguồn dữ liệu sốt xuất huyết tích lũy nhiều năm qua kết hợp với các dữ liệu, yếu tố tác động của thời tiết, khí hậu, dân cƣ, bằng các phƣơng pháp, k thuật, mô hình học máy liệu chúng ta có thể dự báo đƣợc số lƣợng ca bệnh sốt xuất huyết hoặc nguy cơ xảy ra dịch vào thời điểm nào đó, tại một địa bàn huyện thị trong tỉnh Bình Dƣơng không ? Để tìm hiểu, nghiên cứu, giải quyết vấn đề bài toán đặt ra, tác giả đã tiến hành thực hiện luận văn với đề tài : “ ”. Mục tiêu n i n cứu Mụ iê ổ q : Nghiên cứu hệ thống hoá cơ sở khoa học trong dự báo; ứng dụng các k thuật khai phá dữ liệu, học máy làm cơ sở xây dựng các mô hình dự báo dịch bệnh có kết hợp với các yêu tố dân số, môi trƣờng, khí hậu dựa trên nguồn dữ liệu chuyên ngành thu thập đƣợc. Mụ iê ụ ể: Nghiên cứu tổng quan khai phá dữ liệu, học máy. Ứng dụng, lựa chọn phƣơng pháp, k thuật thích hợp trong dự báo dịch sốt xuất huyết; Tìm hiểu, phân tích, xử lý, khai phá nguồn dữ liệu thu thập đƣợc để xây dựng, thực nghiệm mô hình dự báo dịch bệnh bằng các k thuật học máy. Đề xuất sử dụng mô hình dự báo dịch bệnh sốt xuất huyết ph hợp tại Bình Dƣơng. Đối tƣợn và p ạm vi n i n cứu, p ƣơn p áp n i n cứu: 2
  12. Đối tƣợn n i n cứu: Để xây dựng mô hình dự báo dịch SXH trên địa bàn tỉnh Bình Dƣơng, luận văn tập trung sử dụng, tìm hiểu, xử lý, phân tích các tập dữ liệu sau: Tập dữ liệu về ca bệnh SXH, tập dữ liệu về khí hậu, môi trƣờng, dân số từ năm 2006 đến năm 2018. Bên cạnh việc hồi cứu dữ liệu phục vụ cho nghiên cứu, luận văn cũng xem xét, tìm hiểu một số thuật toán và k thuật học máy áp dụng trong dự báo nhƣ một số k thuật học máy hổi quy và phân lớp. P ạm vi n i n cứu: Cơ sở dữ liệu (ca bệnh sốt xuất huyết, khí hậu, thời tiết, dân số) tại địa bàn 09 huyện, thị, thành phố thuộc tỉnh Bình Dƣơng từ năm 2006 - 2018. P ƣơn p áp n i n cứu: - Nghiên cứu tổng quan về bệnh sốt xuất huyết; các phƣơng pháp về phân tích, dự báo dịch bệnh, tham khảo ý kiến chuyên gia về bệnh sốt xuất huyết. - Nghiên cứu các phƣơng pháp khai phá dữ liệu, k thuật trong lĩnh học máy. - Hồi cứu, hiểu về dữ liệu thu thập đƣợc bằng cách trả lời các câu hỏi tự đặt ra, tham khảo ý kiến chuyên gia; phân tích, tiền xử lý, trích lọc, chuyển đổi dữ liệu phục vụ cho việc xây dựng, thực nghiệm mô hình dự báo. - Chạy thực nghiệm trên các mô hình; nhận xét, so sánh, đánh giá kết quả và đề xuất mô hình ph hợp. Bố cục luận văn đƣợc trình bày ngoài phần Mở đầu và Kết luận gồm 03 chƣơng với các nội dung chính nhƣ sau: Chƣơng 1: Trình bày tổng quan về tỉnh Bình Dƣơng, về tình hình dịch bệnh sốt xuất huyết tại Việt Nam và tỉnh Bình Dƣơng; công tác phòng chống dịch bệnh và đặc điểm dịch bệnh sốt xuất huyết tại Bình Dƣơng. Trình bày tổng quan về phát hiện tri thức và khai phá dữ liệu. 3
  13. Chƣơng 2: Trình bày một số nghiên cứu liên quan về dự báo dịch bệnh nói chung và dự báo dịch bệnh sốt xuất huyết nói riêng. Trình bày mô hình dự báo dịch sốt xuất huyết tại Bình Dƣơng dựa trên các k thuật học máy hồi quy, phân lớp. Chƣơng 3: Xây dựng mô hình dự báo và thực nghiệm. Mô tả, tìm hiểu, phân tích dữ liệu sử dụng cho thực nghiệm; Trình bày các kết quả thực nghiệm, đánh giá nhận xét, so sánh kết quả các mô hình và đề xuất chọn mô hình phù hợp để dự báo dịch bệnh sốt xuất huyết tại tỉnh Bình Dƣơng. 4
  14. CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN Trong chƣơng này, tác giả trình bày tổng quan về tỉnh Bình Dƣơng, về tình hình dịch bệnh sốt xuất huyết tại Việt Nam nói chung và tỉnh Bình Dƣơng nói riêng; công tác phòng chống dịch bệnh và đặc điểm dịch bệnh sốt xuất huyết tại Bình Dƣơng. Trình bày tổng quan về khai phá dữ liệu, học máy và các phƣơng pháp, mô hình dự báo dịch bệnh. 1.1. Tổn quan về tỉn B n Dƣơn . Tỉnh Bình Dƣơng thuộc vùng Đông Nam bộ, giáp ranh với các tỉnh/thành nhƣ: TP. Hồ Chí Minh, Đồng Nai, Bình Phƣớc, Tây Ninh; nằm trong V ng kinh tế trọng điểm phía Nam; có diện tích tự nhiên 2.694,43 km2; dân số 2.070.951, mật độ dân số 769 ngƣời/ km2. Bình Dƣơng có 09 đơn vị hành chính cấp huyện (gồm: thành phố Thủ Dầu Một, thị xã Dĩ An, thị xã Thuận An, thị xã Bến Cát, thị xã Tân Uyên và các huyện Bàu Bàng, Bắc Tân Uyên, Dầu Tiếng, Phú Giáo) và 91 đơn vị hành chính cấp xã (46 xã, 41 phƣờng, 04 thị trấn). Toàn tỉnh hiện có 29 khu công nghiệp và 12 cụm công nghiệp. Khí hậu ở Bình Dƣơng cũng nhƣ khu vực miền Đông Nam bộ: nắng nóng và mƣa nhiều, độ ẩm khá cao. Khí hậu nhiệt đới gió m a ổn định, trong năm phân chia thành hai m a rõ rệt: m a khô và m a mƣa. M a mƣa thƣờng bắt đầu từ tháng 5 kéo dài đến cuối tháng 10 dƣơng lịch. Vào những tháng đầu m a mƣa, thƣờng xuất hiện những cơn mƣa rào lớn, rồi sau đó dứt hẳn. Những tháng 7, 8, 9 thƣờng là những tháng mƣa dầm. Nhiệt độ trung bình hàng năm ở Bình Dƣơng từ 26oC-27oC. Nhiệt độ cao nhất có lúc lên tới 39,3oC và thấp nhất từ 16oC- 17oC (ban đêm) và 18oC vào sáng sớm. Vào m a nắng, độ ẩm trung bình hàng năm từ 76%-80%, cao nhất là 86% (vào tháng 9) và thấp nhất là 66% (vào tháng 2). Lƣợng nƣớc mƣa trung bình hàng năm từ 1.800 - 2.000 mm. Bình Dƣơng là một trong những tỉnh công nghiệp phát triển, tốc độ đô thị hóa cao; tốc độ tăng dân số cơ học rất nhanh. Đi kèm với sự phát triển kinh tế thì 5
  15. Bình Dƣơng cũng đối mặt với các vấn đề xã hội trong đó có vấn đề về chăm sóc sức khỏe và phòng chống dịch bệnh. Nhất là tình hình bệnh SXHD cũng tăng nhanh lên theo, số ca mắc bệnh ngày càng cao hàng năm và không theo chu kỳ nhất định mà diễn biến ngày một phức tạp. 1.2. Tổn quan về dịc ện SXH tại Việt Nam và tỉn B n Dƣơn . Dịch bệnh d ng để mô tả những bệnh gây ra bởi vi sinh vật truyền nhiễm mà thỉnh thoảng lại xảy ra với số lƣợng lớn ngƣời mắc. Một khi đƣợc đƣa vào cộng đồng, vi sinh vật truyền nhiễm nhƣ virus và vi khuẩn có thể lây lan từ ngƣời này sang ngƣời khác. Và nếu mỗi một ngƣời truyền bệnh cho hơn một ngƣời khác, số ca bệnh sẽ tăng theo cấp số nhân dẫn đến sự lây lan mạnh là đặc trƣng của một bệnh dịch. Sốt xuất huyết Dengue là một bệnh truyền nhiễm do vi rút Dengue gây ra, và đƣợc lây truyền qua véc-tơ trung gian là muỗi Aedes aegypti (chủ yếu) và Aedes albopictus [1]. Bệnh ngày càng tăng nhanh và xu hƣớng lan rộng trên toàn thế giới khi hiện nay đã có trên 100 quốc gia có sốt xuất huyết lƣu hành. Theo số liệu báo cáo của WHO, năm 2008 có khoảng 1,2 triệu ca sốt xuất huyết, đến 2010 nó tăng lên thành 2,2 triệu ca, và cho đến năm 2015 đã có 3,2 triệu ca mắc đƣợc báo cáo. Nhƣng đó chỉ là số liệu trên giấy, con số thực tế đƣợc ƣớc tính cho thấy hằng năm có khoảng 390 triệu ca mắc. Sốt xuất huyết (SXH) là bệnh nguy hiểm, ƣớc tính mỗi năm có khoảng 500.000 ngƣời phải nhập viện, trong đó có 2,5% ngƣời tử vong vì SXH. Việt Nam nằm trong vành đai nhiệt đới với khí hậu thuận lợi cho sự phát triển của các loài muỗi lây truyền sốt xuất huyết. Việt Nam có tỉ lệ mắc sốt xuất huyết khá cao. Theo số liệu báo cáo của WHO về số ca mắc sốt xuất huyết Dengue trung bình từ năm 2004-2010 của các quốc gia trên thế giới, Việt Nam đứng thứ 3 với trung bình 91.321 ca mỗi năm [2]. Bình Dƣơng là một trong những tỉnh có số ca mắc SXHD cao nhất cả nƣớc. Trong vòng 10 năm từ 2007 - 2016 đã có nhiều đợt dịch lớn xảy ra vào các năm 6
  16. 2008, 2012 và 2015, số ca mắc và tử vong cao nhất nhì khu vực phía Nam. Theo số liệu báo cáo của TTYTDP tỉnh Bình Dƣơng, năm 2016, cả tỉnh có 3.928 ca mắc SXHD, trong đó có 01 ca tử vong. Trong năm 2017, tính đến thời điểm cuối tháng 7, Bình Dƣơng đã có 3.694 ca, có 01 ca tử vong. Cũng nhƣ nhiều nơi lƣu hành bệnh sốt xuất huyết, hệ thống giám sát sốt xuất huyết ở Việt Nam dựa vào báo cáo thụ động đƣợc chẩn đoán lâm sàng ở bệnh nhân nhập viện. Kiểm soát véc-tơ là công cụ chính để dự phòng và kiểm soát bệnh sốt xuất huyết. Chiến lƣợc này phải đối mặt với những hạn chế về tính kịp thời trong phát hiện và ngăn chặn dịch, đòi hỏi cần có những biện pháp khác để hỗ trợ kiểm soát bệnh tốt hơn. Trong các yếu tố nguy cơ giúp truyền bệnh sốt xuất huyết thì thời tiết, khí hậu là yếu tố đặc biệt quan trọng, gây ảnh hƣởng đến sự sinh sản và phát triển của vec-tơ truyền bệnh, chẳng hạn nhƣ mƣa cung cấp môi trƣờng thuận lợi để muỗi đẻ trứng, nhiệt độ cao sẽ làm giảm thời gian sinh trƣởng và phát triển của muỗi… Việc nghiên cứu dự báo sớm nguy cơ xảy ra dịch sốt xuất huyết là rất cần thiết, giúp các nhà quản lý, chuyên môn chủ động trong công tác phòng chống dịch một cách hiệu quả, giảm đƣợc nguồn lực phân bổ cũng nhƣ tránh đƣợc rủi ro, thiệt hại lớn khi dịch xảy ra. 1.3 Tổn quan về p át iện tri t ức và k ai p á dữ liệu Khai phá dữ liệu là một lĩnh vực trong khoa học máy tính, nó tƣơng đối trẻ và liên ngành. KPDL là quá trình khai phá, trích xuất, khai thác và sử dụng những dữ liệu có giá trị tiềm ẩn từ bên trong lƣợng lớn dữ liệu đƣợc lƣu trữ trong các cơ sở dữ liệu (CSDL), kho dữ liệu, trung tâm dữ liệu… dựa trên kĩ thuật nhƣ mạng nơ ron, lí thuyết tập thô, tập mờ, biểu diễn tri thức… Các chuyên gia cho rằng, hiện nay chúng ta đang sống trong một xã hội “rất giàu về thông tin nhƣng nghèo về tri thức”. Chính vì vậy đòi hỏi phải phát 7
  17. triển các phƣơng pháp khai phá, phát hiện ra những thông tin, tri thức có ích bị che lấp trong các “núi” dữ liệu phục vụ cho công việc của các nhà quản lý, các chuyên gia, từ đó thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranh của các tổ chức, doanh nghiệp. Khai phá dữ liệu là một ngành học mới xuất hiện gần đây nhằm đáp ứng nhu cầu này. Các kết quả nghiên cứu c ng với những ứng dụng thành công trong khai phá dữ liệu, khám phá tri thức cho thấy khai phá dữ liệu là một lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích, đồng thời có ƣu thế hơn hẳn so với các công cụ phân tích dữ liệu truyền thống. Hiện nay các cơ sở dữ liệu cần khai phá thƣờng có kích thƣớc rất lớn, đa dạng và ngày càng phức tạp chẳng hạn các CSDL về thời tiết, CSDL dân cƣ các thành phố, CSDL đa phƣơng tiện, CSDL y tế, CSDL văn bản, ... Còn các nhà thống kê thì xem khai phá dữ liệu nhƣ là một qui trình phân tích đƣợc thiết kế để thăm dò một lƣợng cực lớn các dữ liệu nhằm phát hiện ra các mẫu thích hợp hoặc các mối quan hệ mang tính hệ thống giữa các biến và sau đó sẽ hợp thức hoá các kết quả tìm đƣợc bằng cách áp dụng các mẫu đã phát hiện đƣợc cho các tập con mới của dữ liệu. Để khai thác nguồn thông tin có hiệu quả thì các phƣơng pháp quản trị và khai thác cơ sở dữ liệu truyền thống đang ngày càng không đáp ứng nhu cầu. Vì vậy việc nghiên cứu các k thuật khai thác, tổ chức khai thác dữ liệu để khám phá tri thức là vấn đề quan trọng. Quá trình KPDL bao gồm các giai đoạn cơ bản sau: Thu thập dữ liệu - >Trích lọc dữ liệu (selection) -> chuyển đổi dữ liệu (Tranformation) -> phát hiện và trích mẫu dữ liệu -> Đánh giá kết quả mẫu (Enaluvation of Result). 8
  18. Hình 1: Quá trình KPDL, phát hiện tri thức 1.3.1 Các p ƣơn p áp k ai p á dữ liệu KDD bao gồm hai yếu tố quan trọng không thể thiếu đƣợc là dự đoán (Prediction) và mô tả (Description). Dự đoán (Prediction): Đòi hỏi sử dụng một vài biến hoặc trƣờng để dự đoán thông tin tiềm ẩn hoặc một giá trị tƣơng lai của một biến thuộc tính mà ta quan tâm đến. Mô tả (Description): Tập trung là nổi bật lên mô hình kết quả mà con ngƣời có thể hiểu sâu về thông tin dữ liệu. Với hai mục đích chính đã nêu ở trên, ngƣời ta thƣờng sử dụng các phƣơng pháp sau cho khai phá dữ liệu: - Phân lớp (Classification): Là việc học một hàm ánh xạ từ một mẫu dữ liệu vào một trong số các lớp đã đƣợc xác định trƣớc đó. - Hồi qui (Regression): Là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự đoán có giá trị thực. 9
  19. - Phân nhóm (Clustering): Là việc mô tả chung để tìm ra các tập hay các nhóm, loại mô tả dữ liệu. Các nhóm có thể tách rời nhau hoặc phân cấp. - Tổng hợp (Summarization): Là công việc lên quan đến các phƣơng pháp tìm kiếm một mô tả tập con dữ liệu, thƣờng áp dụng trong việc phân tích dữ liệu có tính thăm dò và báo cáo tự động. - Mô hình ràng buộc (Dependency modeling): Là việc tìm kiếm một mô hình mô tả sự phụ thuộc giữa các biến, thuộc tính theo hai mức: phụ thuộc cục bộ vào cấu trúc của mô hình, phụ thuộc vào thƣớc đo, ƣớc lƣợng của một định lƣợng nào đó. - Dò tìm biến đổi và độ lệch (Change and Deviation Dectection): Chú ý vào những thay đổi quan trọng trong dữ liệu từ các giá trị chuẩn hoặc đã đƣợc xác định trƣớc đó. - Biểu diễn mô hình (Model Representation): Là việc dùng một ngôn ngữ nào đó để mô tả các mẫu mô hình có thể khai phá đƣợc. Mô tả mô hình rõ ràng thì học máy sẽ tạo ra mẫu có mô hình chính xác cho dữ liệu. Tuy nhiên, nếu mô hình quá lớn thì khả năng dự đoán của học máy sẽ bị hạn chế. Nhƣ thế sẽ làm cho việc tìm kiếm phức tạp hơn cũng nhƣ hiểu đƣợc mô hình là không đơn giản. - Kiểm định mô hình (Model Evaluation): Là việc đánh giá, ƣớc lƣợng các mô hình chi tiết, chuẩn trong quá trình xử lý và phát hiện tri thức với sự ƣớc lƣợng có dự báo chính xác hay không và có thoả mãn cơ sở logic hay không? Ƣớc lƣợng phải đƣợc đánh giá chéo (cross validation) với việc mô tả đặc điểm bao gồm dự báo chính xác, tính mới lạ, tính hữu ích, tính hiểu đƣợc phù hợp với các mô hình. Hai phƣơng pháp logic và thống kê chuẩn có thể sử dụng trong mô hình kiểm định. - Phƣơng pháp tìm kiếm (Search Method): Gồm có hai thành phần: (1) – Trong bảng tham biến (phạm vi tìm kiếm tham số) thuật toán phải tìm kiếm các tham số trong phạm vi các chuẩn của mô hình kiểm định rồi tối ƣu hoá và đƣa ra tiêu chí (quan sát) dữ liệu và biểu diễn mô hình đã định. (2) – Mô hình tìm kiếm, xuất hiện nhƣ một đƣờng vòng trên toàn bộ phƣơng pháp tìm kiếm, biểu 10
  20. diễn mô hình phải thay đổi sao cho các hệ gia phả mô hình phải đƣợc thông qua. 1.3.2 Mốt số ứng dụng của phát hiện tri thức, khai phá dữ liệu Phát hiện tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán, tính toán song song, thu thập tri thức cho các hệ chuyên gia, quan sát dữ liệu... Đặc biệt phát hiện tri thức và khai phá dữ liệu rất gần gũi với lĩnh vực thống kê, sử dụng các phƣơng pháp thống kê để mô hình dữ liệu và phát hiện các mẫu, luật... Ngân hàng dữ liệu (Data Warehousing) và các công cụ phân tích trực tuyến (OLAP) cũng liên quan rất chặt chẽ với phát hiện tri thức và khai phá dữ liệu. Khai phá dữ liệu có nhiều ứng dụng trong thực tế. Một số ứng dụng điển hình nhƣ: - Bảo hiểm, tài chính và thị trƣờng chứng khoán: Phân tích tình hình tài chính và dự báo giá của các loại cổ phiếu trong thị trƣờng chứng khoán. Danh mục vốn và giá, lãi suất, dữ liệu thẻ tín dụng, phát hiện gian lận, ... - Phân tích dữ liệu và hỗ trợ ra quyết định. - Sản xuất và chế biến: Quy trình, phƣơng pháp chế biến và xử lý sự cố. - Text mining và Web mining: Phân lớp văn bản và các trang Web, tóm tắt văn bản. - Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật học, tìm kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ gene và một số bệnh di truyền. - Mạng viễn thông: Phân tích các cuộc gọi điện thoại và hệ thống giám sát lỗi, sự cố, chất lƣợng dịch vụ, ... 11
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2