ĐẠI HỌC QUỐC GIA HÀ NỘI<br />
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ<br />
<br />
VI VĂN SƠN<br />
<br />
PHÂN CỤM THÔ CỦA DỮ LIỆU TUẦN TỰ<br />
<br />
Ngành:Hệ thống thông tin<br />
Chuyênngành: Hệ thống thông tin<br />
Mã số: 60480104<br />
<br />
LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN<br />
NGƯỜI HƯỚNG DẪN KHOA HỌC : PGS.TS Hoàng Xuân Huấn<br />
<br />
HàNội, năm 2016<br />
<br />
LỜI CẢM ƠN<br />
<br />
Trước hết, tôi xin gửi lời biết ơn sâu sắc đến người thầy PGS. TS Hoàng Xuân<br />
Huấn đã dành rất nhiều thời gian và tâm huyết hướng dẫn nghiên cứu và giúp tôi hoàn<br />
thành tốt luận văn tốt nghiệp này. Thầy đã mở ra cho tôi những vấn đề khoa học rất lý<br />
thú, định hướng nghiên cứu các lĩnh vực hết sức thiết thực, đồng thời tạo điều kiện<br />
thuận lợi tốt nhất cho tôi học tập và nghiên cứu.<br />
Tôi cũng xin được bày tỏ lòng biết ơn tới các thầy cô trường Đại học Công nghệ<br />
đã tham gia giảng dạy và chia sẻ những kinh nghiệm quý báu cho tập thể và cá nhân<br />
tôi nói riêng. Tôi xin cảm ơn tất cả các Anh, Chị và các bạn luôn chia sẻ, giúp đỡ, trao<br />
đổi, góp ý trong quá trình học tập.<br />
Tôi xin gửi lời biết ơn tới bố mẹ, gia đình và người thân đã tạo mọi điều kiện tốt<br />
nhất để tôi cơ hội lựa chọn con đường đi của mình.<br />
Một lần nữa, tôi xin chân thành cảm ơn!<br />
<br />
Hà Nội, tháng 11 năm 2016.<br />
Học viên<br />
<br />
Vi Văn Sơn<br />
<br />
LỜI CAM ĐOAN<br />
<br />
Những kiến thức trình bày trong luận văn là do tôi tìm hiểu, nghiên cứu và trình<br />
bày lại theo cách hiểu. Trong quá trình làm luận văn tôi có tham khảo các tài liệu có<br />
liên quan và đã ghi rõ nguồn tài liệu tham khảo đó. Tôi xin cam đoan đây là công trình<br />
nghiên cứu của tôi và không sao chép của bất kỳ ai.<br />
<br />
Hà Nội, tháng 11 năm 2016.<br />
Học viên<br />
<br />
Vi Văn Sơn<br />
<br />
MỤC LỤC<br />
MỞ ĐẦU ............................................................................................................................... 1<br />
CHƯƠNG I TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU ..................................................... 3<br />
1.1 Phân cụm dữ liệu là gì ................................................................................................. 3<br />
1.2 Thế nào là phân cụm tốt............................................................................................... 5<br />
1.3 Các ứng dụng của phân cụm dữ liệu............................................................................ 7<br />
1.4 Các kiểu dữ liệu và độ đo tương tự.............................................................................. 8<br />
1.4.1 Cấu trúc dữ liệu .................................................................................................... 8<br />
1.4.2 Các kiểu dữ liệu .................................................................................................... 9<br />
1.4.3 Độ đo tương tự .................................................................................................... 11<br />
1.5 Các phương pháp và các thuật toán phân cụm dữ liệu .............................................. 13<br />
1.5.1 Phương pháp phân cấp ....................................................................................... 14<br />
1.5.2 Phương pháp phân hoạch ................................................................................... 16<br />
1.5.3 Phương pháp dựa trên mật độ ........................................................................... 17<br />
1.5.4 Phương pháp dựa trên lưới ................................................................................ 19<br />
Chương II LÝ THUYẾT TẬP THÔ ................................................................................... 21<br />
2.1 Giới Thiệu.................................................................................................................. 21<br />
2.2 Các khái niệm cơ bản ............................................................................................... 22<br />
2.2.1 Hệ thống thông tin .............................................................................................. 22<br />
2.2.2 Bảng quyết định (Decision Table) ...................................................................... 23<br />
2.2.3 Quan hệ không phân biệt được........................................................................... 24<br />
2.2.4 Các khái niệm xấp xỉ trong tập thô..................................................................... 25<br />
2.3 Rút gọn các thuộc tính trong hệ thống thông tin. ...................................................... 27<br />
2.4 Ma trận phân biệt và hàm phân biệt .......................................................................... 29<br />
2.5 Hàm Thành Viên Thô ................................................................................................ 30<br />
Chương III ÁP DỤNG THUẬT TOÁN PHÂN CỤM THÔ VÀO BÀI TOÁNPHÂN CỤM<br />
NGƯỜI DÙNG TRÊN WEB .............................................................................................. 32<br />
3.1 Giới Thiệu.................................................................................................................. 32<br />
3.2 Bài Toán .................................................................................................................... 33<br />
3.3 Dữ liệu tuần tự ........................................................................................................... 34<br />
3.4 Độ đo tương tự........................................................................................................... 34<br />
3.5 Thuật toán phân cụm thô ........................................................................................... 36<br />
3.6 Kết quả thử nghiệm với