Luận văn Thạc sĩ Khoa học máy tính: Ứng dụng phân cụm dữ liệu trong quản lý bảo hiểm tại Công ty Bảo Việt nhân thọ Hà Nội

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:64

Thêm vào BST

Báo xấu

47
lượt xem 8
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Đề tài “Ứng dụng phân cụm dữ liệu trong quản lý bảo hiểm tại công ty Bảo Việt nhân thọ Hà Nội” ứng dụng thuật toán của phân cụm dữ liệu để đưa ra nhóm khách hàng có sự giống nhau là lớn nhất và từ đó có thể giúp cho các chuyên ra đưa ra các đánh giá về các mẫu khách hàng, trên cơ sở hồ sơ mua bảo hiểm gồm các thông tin độ tuổi, số tiền, số năm mua. Mời các bạn cùng tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Khoa học máy tính: Ứng dụng phân cụm dữ liệu trong quản lý bảo hiểm tại Công ty Bảo Việt nhân thọ Hà Nội

1 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐỖ PHƯƠNG DUNG ỨNG DỤNG PHÂN CỤM DỮ LIỆU TRONG QUẢN LÝ BẢO HIỂM TẠI CÔNG TY BẢO VIỆT NHÂN THỌ HÀ NỘI LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN, 2018
2 LỜI CAM ĐOAN Em xin cam đoan luận văn này là công trình do em tự nghiên cứu dưới sự hướng dẫn của thầy giáo Nguyễn Tân Ân. Mọi trích dẫn sử dụng trong báo cáo đều được ghi rõ nguồn tài liệu tham khảo theo quy định. Thái Nguyên, ngày 06 tháng 04 năm 2018 Tác giả luận văn Đỗ Phương Dung
3 LỜI CẢM ƠN Trước hết, tôi xin bày tỏ lòng kính trọng và lòng biết ơn sâu sắc tới thầy giáo PGS.TS Nguyễn Tân Ân, người đã tận tình hướng dẫn, chỉ bảo và cung cấp những tài liệu rất hữu ích để tôi có thể hoàn thành luận văn. Tôi cũng xin cảm ơn lãnh đạo Trường Đại học Công nghệ Thông tin và Truyền thông - Đại học Thái Nguyên đã tạo điều kiện giúp đỡ tôi về mọi mặt trong suốt quá trình học tập và thực hiện luận văn. Tôi xin bày tỏ lòng biết ơn tới các thầy, cô giáo đã giảng dạy, truyền đạt kiến thức, và phương pháp nghiên cứu khoa học trong suốt thời gian học tập vừa qua. Cuối cùng, tôi gửi lời cảm ơn tới gia đình, các anh chị em học viên cao học CK15B, các bạn đồng nghiẹp đã động viên, khích lệ và luôn tạo điều kiện giúp đỡ tôi trong quá trình học tập và nghiên cứu. Thái Nguyên, ngày 06 tháng 04 năm 2018 Tác giả luận văn Đỗ Phương Dung
4 MỤC LỤC LỜI CAM ĐOAN...........................................................................................................................1 LỜI CẢM ƠN .................................................................................................................................3 MỤC LỤC .......................................................................................................................................4 DANH MỤC CÁC TỪ VIẾT TẮT............................................................................................6 DANH MỤC HÌNH VẼ................................................................................................................7 MỞ ĐẦU ..........................................................................................................................................8 CHƯƠNG 1: TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU ....................................................................................................................................... 10 1.1. Giới thiệu chung về khám phá tri thức và khai phá dữ liệu ........................... 10 1.2. Quá trình khám phá tri thức ........................................................................... 11 1.3. Quá trình khai phá dữ liệu .............................................................................. 12 1.4. Các phương pháp khai phá dữ liệu................................................................. 13 1.5. Các lĩnh vực ứng dụng thực tiễn của KPDL .................................................. 14 1.6. Các hướng tiếp cận cơ bản và kỹ thuật áp dụng trong KPDL ....................... 15 1.7. Kết luận .......................................................................................................... 17 CHƯƠNG 2: PHÂN CỤM DỮ LIỆU VÀ CÁC THUẬT TOÁN TRONG PHÂN CỤM DỮ LIỆU.............................................................................................................. 19 2.1. Khái niệm và mục tiêu của phân cụm dữ liệu ................................................ 19 2.2. Các ứng dụng của phân cụm dữ liệu .............................................................. 20 2.3. Các yêu cầu của phân cụm ............................................................................. 21 2.4. Những kỹ thuật tiếp cận trong phân cụm dữ liệu ........................................... 23 2.4.1. Phương pháp phân cụm phân hoạch .......................................................23 2.4.2. Phương pháp phân cụm phân cấp ...........................................................29 2.4.3. Phương pháp phân cụm dựa trên mật độ.................................................35 2.4.4. Phương pháp phân cụm dựa trên lưới .....................................................39 2.4.5. Phương pháp phân cụm dựa trên mô hình ..............................................40 2.4.6. Phương pháp phân cụm có dữ liệu rằng buộc .........................................41 CHƯƠNG 3: BÀI TOÁN ỨNG DỤNG ................................................................................ 43 3.1. Đặt bài toán .................................................................................................... 43 3.2. Giải quyết bài toán ......................................................................................... 44 3.3. Lý thuyết áp dụng........................................................................................... 45 3.4. Chương trình ứng dụng .................................................................................. 45
5 3.5. Đánh giá kết quả............................................................................................. 48 HƯỚNG NGHIÊN CỨU TIẾP THEO ................................................................................. 52 TÀI LIỆU THAM KHẢO ........................................................................................................ 53 PHỤ LỤC...................................................................................................................................... 54 Phụ lục 1: Hướng dẫn sử dụng chương trình ........................................................ 54 Phụ lục 2: Mã nguồn trang Phân cụm của chương trình ....................................... 57
6 DANH MỤC CÁC TỪ VIẾT TẮT STT Viết tắt Cụm từ 1. CNTT Công nghệ thông tin 2. CSDL Cơ sở dữ liệu 3. KPDL Khai phá dữ liệu 4. PCDL Phân cụm dữ liệu
7 DANH MỤC HÌNH VẼ STT Tên hình vẽ 1. Hình 1.1: Quá trình Khai phá tri thức 2. Hình 1.2: Quá trình Khai phá dữ liệu 3. Hình 2.1: Các thiết lập để xác định ranh giới các cụm ban đầu 4. Hình 2.2: Tính toán trọng tâm của các cụm mới 5. Hình 2.3: Phân cụm phân cấp Top-down và Bottom-up 6. Hình 2.4: Các cụm dữ liệu theo thuật toán CURE 7. Hình 2.5: Cấu trúc cây CF 8. Hình 2.6: Một số hình dạng cụm dữ liệu khám phá được bởi kỹ thuật PCDL dựa trên mật độ 9. Hình 2.7: Mô hình cấu trúc dữ liệu lưới
8 MỞ ĐẦU Sự phát triển của Công nghệ thông tin và việc ứng dụng công nghệ thông tin trong các lĩnh vực của đời sống kinh tế, xã hội trong nhiều năm qua dẫn đến dữ liệu được thu thập và lưu trữ ngày càng đa dạng và phong phú. Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là cần có những kĩ thuật và công cụ mới để tự động chuyển đổi lượng dữ liệu khổng lồ thành các tri thức có ích. Từ đó, các kĩ thuật Khai phá dữ liệu đã trở thành một lĩnh vực thời sự của nền Công nghệ thông tin thế giới hiện nay. Một vấn đề được đặt ra là phải làm sao trích chọn được những thông tin có ý nghĩa từ tập dữ liệu lớn để từ đó có thể giải quyết được các yêu cầu của thực tế như trợ giúp ra quyết định và dự đoán,… Khai phá dữ liệu (Data mining) đã ra đời nhằm giải quyết các yêu cầu đó. Khai phá dữ liệu được định nghĩa là: quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các Cơ sở dữ liệu, kho dữ liệu… Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như: khai phá tri thức từ Cơ sở dữ liệu (knowlegde mining from databases), trích lọc dữ liệu (knowlegde extraction), phân tích dữ liệu/mẫu (data/pattern analysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (data dredging). Nhiều người coi khai phá dữ liệu và một thuật ngữ thông dụng khác là khám phá tri thức trong Cơ sở dữ liệu (Knowlegde Discovery in Databases) là như nhau. Tuy nhiên trên thực tế, khai phá dữ liệu chỉ là một bước thiết yếu trong quá trình Khám phá tri thức trong Cơ sở dữ liệu. Ngay từ những ngày đầu khi xuất hiện, Data mining đã trở thành một trong những xu hướng nghiên cứu phổ biến trong lĩnh vực học máy tính và công nghệ tri thức. Nhiều thành tựu nghiên cứu của Data mining đã được áp
9 dụng trong thực tế. Data mining có nhiều hướng quan trọng và một trong các hướng đó là phân cụm dữ liệu (Data Clustering). Phân cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các phần tử trong một cụm "tương tự" (Similar) với nhau và các phần tử trong các cụm khác nhau sẽ "phi tương tự" (Dissimilar) với nhau. Số các cụm dữ liệu được phân ở đây có thể được xác định trước theo kinh nghiệm hoặc có thể được tự động xác định. Phân cụm dữ liệu đặc biệt hiệu quả khi ta không biết thông tin của các cụm. Phân cụm được coi như một công cụ độc lập để xem xét phân bố dữ liệu. Hiện nay, phân cụm dữ liệu là một hướng được nghiên cứu rất nhiều trong tin học. Chính vì vậy em chọn đề tài “Ứng dụng phân cụm dữ liệu trong quản lý bảo hiểm tại công ty Bảo Việt nhân thọ Hà Nội” để ứng dụng thuật toán của phân cụm dữ liệu để đưa ra nhóm khách hàng có sự giống nhau là lớn nhất và từ đó có thể giúp cho các chuyên ra đưa ra các đánh giá về các mẫu khách hàng, trên cơ sở hồ sơ mua bảo hiểm gồm các thông tin độ tuổi, số tiền, số năm mua.
10 CHƯƠNG 1: TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.1. Giới thiệu chung về khám phá tri thức và khai phá dữ liệu Nếu ta cho rằng, điện tử và truyền thông chính là bản chất của khoa học điện tử, thì dữ liệu, thông tin, và tri thức hiện đang là tiêu điểm của một lĩnh vực mới để nghiên cứu và ứng dụng, đó là khám phá tri thức và khai phá dữ liệu. Thông thường, chúng ta coi dữ liệu như là một chuỗi các bits, hoặc các số và các ký hiệu hay là các “đối tượng” với một ý nghĩa nào đó khi được gửi cho một chương trình dưới một dạng nhất định. Các bits thường được sử dụng để đo thông tin, và xem nó như là dữ liệu đã được loại bỏ phần tử thừa, lặp lại, và rút gọn tới mức tối thiểu để đặc trưng một cách cơ bản cho dữ liệu. Tri thức được xem như là các thông tin tích hợp, bao gồm các sự kiện và mối quan hệ giữa chúng, đã được nhận thức, khám phá, hoặc nghiên cứu. Nói cách khác, tri thức có thể được coi là dữ liệu ở mức độ cao của sự trừu tượng và tổng quát. Khám phá tri thức hay phát hiện tri thức trong CSDL là một quy trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: Phân tích, tổng hợp, hợp thức, khả ích và có thể hiểu được. Khai phá dữ liệu là một bước trong quá trình khám phá tri thức, gồm các thuật toán khai thác dữ liệu chuyên dùng dưới một số quy định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu. Nói cách khác, mục tiêu của KPDL là tìm các mẫu hoặc mô hình tồn tại trong CSDL nhưng ẩn trong khối lượng lớn dữ liệu.
11 Hình 1.1: Quá trình Khai phá tri thức 1.2. Quá trình khám phá tri thức [4] Quá trình khai phá tri thức trải qua 3 bước chính sau: Bước 1: Chuẩn bị dữ liệu Do dữ liệu được thu thập từ nhiều nguồn khác nhau nên cũng thể có nhiều sai sót, dư thừa, trùng lặp. Vì vậy bước chuẩn bị là bước rất quan trọng. Dữ liệu sau bước chuẩn bị này sẽ nhỏ hơn, xử lý nhanh chóng hơn. Chuẩn bị dữ liệu bao gồm các công đoạn sau: - Làm sạch dữ liệu (Data Cleaning): Loại bỏ dữ liệu nhiễu và dữ liệu không thích hợp. - Tích hợp dữ liệu (Data Intergation): Tích hợp dữ liệu từ các nguồn khác nhau - Lựa chọn dữ liệu (Data Selection): Lựa chọn những dữ liệu phù hợp với nhiệm vụ phân tích trích rút từ cơ sở dữ liệu.
12 - Chuyển đổi dữ liệu (Data Transfomation): Dữ liệu được chuyển đổi hay được hợp nhất về dạng thích hợp cho việc khai phá. Bước 2: Khai phá dữ liệu (Data Mining): Đây là một tiến trình cốt yếu trong đó các phương pháp thông minh được áp dụng nhằm trích rút ra thông tin có ích, các mẫu điển hình hay các luật liên quan giữa các yếu tố của dữ liệu. Bước 3: Hậu xử lý Không phải bất cứ mẫu dữ liệu nào được trích xuất ra đều là mẫu có ích, đôi khi còn bị sai lệch. Vậy cần có những tiêu chuẩn đánh giá phù hợp để trích xuất ra tri thức thực sự có ích. Bước hậu xử lý bao gồm 2 công đoạn: - Đánh giá mẫu (Pattern Evaluation): Dựa trên một độ do nào đó xác định lợi ích thực sự, độ quan trọng của các mẫu biểu diễn tri thức. - Biểu diễn tri thức (Knowled Presentation): Ở giai đoạn này các kỹ thuật biểu diễn và hiển thị được sử dụng để đưa tri thức lấy ra cho người dùng. 1.3. Quá trình khai phá dữ liệu KPDL là một giai đoạn quan trọng trong quá trình Khai phá tri thức. Về bản chất, nó là giai đoạn duy nhất tìm ra được thông tin mới, thông tin tiềm ẩn có trong CSDL chủ yếu phục vụ cho mô tả và dự đoán. Mô tả dữ liệu: là tổng kết hoặc diễn tả những đặc điểm chung của nhứng thuộc tính dữ liệu trong kho dữ liệu mà con người có thể hiểu được. Dự đoán: là dựa trên những dữ liệu hiện thời để dự đoán những quy luật được phát hiện từ các mối liên hệ giữa các thuộc tính của dữ liệu trên cơ sở đó chiết xuất ra các mẫu, dự đoán được những giá trị chưa biết hoặc những giá trị tương lai của các biến quan tâm.
13 Quá trình KPDL bao gồm các bước chính được thể hiện như Hình 1.2 sau: Hình 1.2: Quá trình Khai phá dữ liệu - Xác định nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết. - Xác định các dữ liệu liên quan: Dùng để xây dựng giải pháp. - Thu thập các dữ liệu liên quan: Thu thập các dữ liệu liên quan và tiền xử lý chúng sao cho thuật toán KPDL có thể hiểu được. Đây là một quá trình rất khó khăn, có thể gặp phải rất nhiều các vướng mắc như: dữ liệu phải được sao ra nhiều bản (nếu được chiết xuất vào các tệp), quản lý tập các dữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình dữ liệu thay đổi), v.v… - Thuật toán khai phá dữ liệu: Lựa chọn thuật toán KPDL và thực hiện việc PKDL để tìm được các mẫu có ý nghĩa, các mẫu này được biểu diễn dưới dạng luật kết hợp, cây quyết định… tương ứng với ý nghĩa của nó. 1.4. Các phương pháp khai phá dữ liệu Với hai mục đích khai phá dữ liệu là Mô tả và Dự đoán, người ta thường sử dụng các phương pháp sau cho khai phá dữ liệu: + Luật kết hợp (Association rules)
14 + Phân lớp (Classfication) + Hồi quy (Regression) + Trực quan hóa (Visualiztion) + Phân cụm (Clustering) + Tổng hợp (Summarization) + Mô hình ràng buộc (Dependency modeling) + Biểu diễn mô hình (Model Evaluation) + Phân tích sự phát triển và độ lệch (Evolution and deviation analyst) + Phương pháp tìm kiếm (Search Method) - Có nhiều phương pháp khai phá dữ liệu được nghiên cứu ở trên, trong đó có ba phương pháp được các nhà nghiên cứu sử dụng nhiều nhất đó là: Luật kết hợp, Phân lớp dữ liệu và Phân cụm dữ liệu. 1.5. Các lĩnh vực ứng dụng thực tiễn của KPDL KPDL là một lĩnh vực mới phát triển nhưng đã được ứng dụng một cách rộng rãi trong rất nhiều lĩnh vực của đời sống. Sau đây là một số lĩnh vực ứng dụng thực tế điển hình của khai phá dữ liệu; - Phân tích tình hình tài chính, thị trường, dự báo giá cổ phiếu trong tài chính, thị trường và chứng khoán. - Y học: Chuẩn đoán bệnh dựa trên kết quả xét nghiệm… - Bảo hiểm: Áp dụng vào việc phân tích mức độ rủi ro hay tìm kiếm khách hàng mua bảo hiểm
15 - Quá trình sản xuất: Các ứng dụng giải quyết sự tối ưu của các nguồn tài nguyên như máy móc, nhân sự và nguyên vật liệu. thiết kế tối ưu trong quá trình sản xuất. - Phân tích dữ liệu và hỗ trợ ra quyết định. - Máy tìm kiếm (web). - Tìm kiếm, đối sách các hệ Gene và thông tin di truyền trong sinh học. - Phân tích dữ liệu marketing, khách hàng. - Điều khiển và lập lịch trình. - Thể thao, giải trí, quảng cáo. - Thiên văn học. - Viễn thông. - Giáo dục… 1.6. Các hướng tiếp cận cơ bản và kỹ thuật áp dụng trong KPDL [1] Vấn đề khai phá dữ liệu có thể được chia theo lớp các hướng tiếp cận chính sau: - Phân lớp và dự đoán (Classification & prediction): Là quá trình xết một đối tượng vào một trong những lớp đã được biết trước (ví dụ: phân lớp các bệnh nhân theo dữ liệu hồ sơ bệnh án, phân lớp vùng địa lý theo dữ liệu thời tiết…). Đối với những hướng tiếp cận này thường sử dụng một số kỹ thuật của học máy như cây quyết định (decision tree), mạng nơron nhân tạo (neural network),… Hay lớp bài toán này còn được gọi là học có giám sát (Supervused learning).
16 - Phân cụm (Clustering/Segmentation): Sắp xếp các đối tượng theo từng cụm dữ liệu tự nhiên, tức là số lượng và tên cụm chưa được biết trước. Các đối tượng được gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm là lớn nhất và mức độ tương tự giữa các đối tượng nằm trong các cụm khác nhau là nhỏ nhất. Lớp bài toán này còn được gọi là học không giám sát (Unsupervised learning). - Luật kết hợp (Association rules): Là quá trình khám phá các tập giá trị thuộc tính xuất hiện phổ biến trong các đối tượng dữ liệu. Từ tập phổ biến có thể tạo ra các luật kết hợp giữa các giá trị thuộc tính trong tập các đối tượng. - Khám phá chuỗi theo thời gian (Sequential/ temporal patterns): Cũng tương tự như KPDL bằng luật kết hợp nhưng có thêm tính thứ tự và tính thời gian. Một luật mô tả mẫu tuần tự có dạng tiêu biểu X  Y , phản ánh sự xuất hiện của biến cố X sẽ dẫn đến việc xuất hiện biến cố Y. Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán bởi chúng có tính dự báo cao. - Phân tích ngoại lệ: Phân tích ngoại lệ cũng là một dạng của phân cụm, nó tập trungvào các trường hợp rất khác biệt so với các trường khác. - Hồi quy: Phương pháp này được sử dụng để đưa ra các dự báo dựa trên các dữ liệu đang tồn tại bằng cách áp dụng các công thức. Một hàm sẽ được học ra từ bộ dữ liệu hiện có bằng cách sử dụng cá kỹ thuật hồi quy và tuyến tính từ việc thống kê. Sau đó, dữ liệu mới sẽ căn cứ vào hàm này để đưa ra những dự đoán - Mô tả khái niệm (Concept desccription & Summarization): Lớp bài toán này thiên về mô tả, tổng hợp và tóm tắt khái niệm.
17 1.7. Kết luận KPDL là một lĩnh vực đã và đang trở thành một trong những hướng nghiên cứu thu hút được sự quan tâm của nhiều chuyên gia về CNTT trên thế giới. Trong những năm gần đây, rất nhiều các phương pháp và thuật toán mới liên tục được công bố. Điều này chứng tỏ những ưu thế, lợi ích và khả năng ứng dụng thực tế to lớn của KPDL. Tuy nhiên trong quá trình khai phá dữ liệu cũng gặp những thách thức sau: - Cơ sở dữ liệu lớn: kích thước của cơ sở dữ liệu được nhận biết thông qua số lượng các mẫu tin, các thuộc tính (hay các biến) và các bảng, số lượng có thể là hàng trăm thuộc tính và bảng, hàng triệu các mẫu tin. Như vậy, kích thước của cơ sở dữ liệu tính bằng terabyte (1012 byte) đã bắt đầu xuất hiện. Dữ liệu với số chiều (tương ứng với thuộc tính khi biểu diễn qua không gian các mẫu dữ liệu) cao tạo nên sự gia tăng về kích thước của không gian tìm kiếm trong việc quy nạp mô hình, một sự bùng nổ về tổ hợp. Khi xây dựng mô hình chỉ một tập con trong cơ sở dữ liệu tham gia, vì vậy tính may rủi trong các thuật toán khai phá sẽ tìm được các mẫu không có giá trị trong trường hợp tổng quát. Một giải pháp cho vấn đề này là giảm bớt đáng kể số chiều của bài toán và sử dụng tri thức trước (prior knowledge) để nhận biết các biến ít liên quan. - Vấn đề “quá khớp” (Over-fitting): Khi thuật toán khai phá tìm kiếm với các tham số tốt nhất cho một mô hình đặc biệt và một giới hạn của tập dữ liệu, mô hình ấy có thể “quá khớp” trên tập dữ liệu ấy nhưng lại thi hành không chính xác trên tập dữ liệu kiểm tra. Một giải pháp thường được sử dụng là thẩm định chéo. - Thay đổi dữ liệu và tri thức: Dữ liệu là không tĩnh, dữ liệu thay đổi nhanh chóng có thể dẫn đến những mẫu đã khai phá trước đây không còn
18 hiệu lực. Thêm vào đó, các biến đã được đo trong cơ sở dữ liệu ứng dụng đã bị thay đổi, bị xóa hoặc đã tăng lên với một độ đo mới. Điều này có thể được thực hiện bằng cách gia tăng các phương thức cập nhật các mẫu và xem xét các thay đổi như là một cơ hội cho việc khám phá bằng việc sử dụng nó để xử lý thích hợp việc tìm kiếm các mẫu chỉ với sự thay đổi. - Dữ liệu thiếu và nhiễu: Đây là vấn đề rất được quan tâm trong khai phá dữ liệu, điều này thường dẫn đến việc dự đoán thiếu chính xác. - Tích hợp với hệ thống: Hệ thống khai phá dữ liệu thực sự là hữu ích khi phải được tích hợp với cơ sở dữ liệu thông qua các giao diện như truy vấn, bảng tính và các công cụ trực quan khác. Hơn nữa, phải tạo ra một môi trường thuận lợi cho việc tương tác với người dùng.
19 CHƯƠNG 2: PHÂN CỤM DỮ LIỆU VÀ CÁC THUẬT TOÁN TRONG PHÂN CỤM DỮ LIỆU 2.1. Khái niệm và mục tiêu của phân cụm dữ liệu Phân cụm dữ liệu là quá trình nhóm một tập các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng. Phân cụm dữ liệu là một ví dụ của phương pháp học không có giám sát. Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện. Vì thế, có thể chọn phân cụm dữ liệu làm một cách học bằng quan sát, trong khi phân lớp dữ liệu là học bằng ví dụ… Ngoài ra phân cụm dữ liệu còn có thể được sử dụng một bước tiền xử lý cho các thuật toán khai phá dữ liệu khác như là phân loại và mô tả đặc điểm, có tác dụng trong việc phát hiện ra các cụm [1]. Phân cụm có ý nghĩa rất quan trọng trong hoạt động của con người. Ngay từ lúc còn bé, con người đã học cách làm thế nào để phân biệt giữa các loài động vật. Phân cụm được sử dụng rộng rãi trong nhiều ứng dụng, bao gồm nhận dạng mẫu, phân tích dữ liệu, xử lý ảnh, nghiên cứu thị trường… Với tư cách là một chức năng khai phá dữ liệu, phân tích phân cụm có thể được sử dụng như một công cụ độc lập chuẩn để quan sát đặc trưng của mỗi cụm thu được bên trong sự phân bố của dữ liệu và tập trung vào một tập riêng biệt của các cụm để giúp cho việc phân tích có kết quả. Một vấn đề thường gặp trong phân cụm là hầu hết các dữ liệu cần cho phân cụm đều có chứa dữ liệu nhiễu do quá trình thu thập thiếu chính xác hoặc thiếu đầy đủ, vì vậy cần phải xây dựng chiến lược cho bước tiền xử lý dữ liệu nhằm khắc phục hoặc loại bỏ nhiễu trước khi chuyển sang giai đoạng phân tích cụm dữ liệu. Nhiễu ở đây được hiểu là các đối tượng không chính
20 xác, không tường minh hoặc là các đối tượng dữ liệu khuyết thiếu thông tin về một thuộc tính nào đó… Một trong các kỹ thuật xử lý nhiễu bằng giá trị thuộc tính tương ứng. Ngoài ra, dò tìm phần tử ngoại lai cũng là một trong những hướng nghiên cứu quan trọng trong phân cụm, chức năng của nó là xác định một nhóm nhỏ các đối tượng dữ liệu khác thường so với CSDL, tức là các dối tượng dữ liệu không tuân theo các hành vi hoặc mô hình dữ liệu nhằm tránh sự ảnh hưởng của chúng tới quá trình và kết quả của phân cụm. Mục tiêu của phân cụm là xác định được bản chất nhóm trong tập dữ liệu. Nhưng để có thể quyết định được cái gì tạo thành một cụm tốt. Nó có thể được chỉ ra rằng không có tiêu chuẩn tuyệt đối “tốt” mà có thể không phụ thuộc vào kết quả phân cụm. Vì vậy, nó đòi hỏi người sử dụng phải cung cấp tiêu chuẩn này, theo cách mà kết quả phân cụm sẽ đáp ứng yêu cầu. Theo các nghiên cứu cho thấy thì hiện nay chưa có một phương pháp phân cụm tổng quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc CSDL. Hơn thế nữa, các phương pháp phân cụm cần có cách thức biểu diễn cấu trúc của CSDL, với mỗi cách thức biểu diễn khác nhau sẽ có tương ứng một thuật toán phân cụm phù hợp. Vì vậy phân cụm dữ liệu vẫn đang là một vấn đề mở và khó, vì phải giải quyết nhiều vấn đề cơ bản một cách trọn vẹn và phù hợp với nhiều dạng dữ liệu khác nhau, đặc biệt là đối với dữ liệu hỗn hợp đang ngày càng tăng trong các hệ quản trị dữ liệu và đây cũng là một trong những thách thức lớn trong lĩnh vực KPDL. 2.2. Các ứng dụng của phân cụm dữ liệu Phân cụm dữ liệu có thể được ứng dụng trong nhiều lĩnh vực như: Bảo hiểm: Nhận dạng nhóm tham gia bảo hiểm có chi phí bồi thường cao, nhận dạng gian lận thương mại.