GVHD: ThS.Dương Thị Hải Phương<br />
<br />
Khóa luận tốt nghiệp<br />
<br />
MỤC LỤC<br />
MỤC LỤC .......................................................................................................................i<br />
THUẬT NGỮ VIẾT TẮT.............................................................................................v<br />
CÁC KÝ HIỆU SỬ DỤNG TRONG KHÓA LUẬN.................................................vi<br />
<br />
uế<br />
<br />
DANH MỤC HÌNH VẼ.............................................................................................. vii<br />
DANH MỤC BẢNG BIỂU ..........................................................................................ix<br />
<br />
tế<br />
H<br />
<br />
TÓM TẮT NGHIÊN CỨU ...........................................................................................x<br />
MỞ ĐẦU.........................................................................................................................1<br />
1. Lý do chọn đề tài......................................................................................................1<br />
2. Mục tiêu của đề tài ...................................................................................................2<br />
<br />
h<br />
<br />
3. Đối tượng và phạm vi nghiên cứu............................................................................2<br />
<br />
in<br />
<br />
4. Phương pháp nghiên cứu..........................................................................................3<br />
<br />
cK<br />
<br />
5. Cấu trúc của khóa luận.............................................................................................3<br />
CHƯƠNG I TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ<br />
DỮ LIỆU ........................................................................................................................4<br />
<br />
họ<br />
<br />
1.1. Phát hiện tri thức ...................................................................................................4<br />
1.1.1 Khái niệm khám phá tri thức ...........................................................................4<br />
<br />
Đ<br />
ại<br />
<br />
1.1.2 Sự cần thiết của phát hiện tri thức ...................................................................4<br />
1.1.3 Tiến trình khai phá tri thức ..............................................................................6<br />
1.2. Khai phá dữ liệu ....................................................................................................8<br />
<br />
ng<br />
<br />
1.2.1 Khái niệm.........................................................................................................8<br />
1.2.2 Quá trình khai phá dữ liệu ...............................................................................9<br />
<br />
ườ<br />
<br />
1.2.4 Các thành phần của giải thuật khai phá dữ liệu .............................................12<br />
1.2.5 Nhiệm vụ chính của khai phá dữ liệu ............................................................13<br />
<br />
Tr<br />
<br />
1.2.6 Các kỹ thuật khai phá dữ liệu ........................................................................15<br />
1.2.6.1 Cây quyết định và luật.............................................................................15<br />
1.2.6.2 Phát hiện luật kết hợp ..............................................................................15<br />
1.2.6.3 Các phương pháp phân lớp và hồi quy phi tuyến tính ............................16<br />
1.2.6.4 Phương pháp quy nạp..............................................................................16<br />
1.2.6.5 Phân nhóm và phân đoạn ........................................................................16<br />
<br />
SVTH: Hoàng Thị Hoa<br />
<br />
i<br />
<br />
GVHD: ThS.Dương Thị Hải Phương<br />
<br />
Khóa luận tốt nghiệp<br />
<br />
1.2.6.6 Các phương pháp dựa trên mẫu...............................................................17<br />
1.2.6.7 Mô hình phụ thuộc dựa trên đồ thị xác suất ............................................17<br />
1.2.6.8 Mô hình học quan hệ ...............................................................................18<br />
1.2.6.9 Khai phá dữ liệu dạng văn bản................................................................18<br />
<br />
uế<br />
<br />
1.2.6.10 Mạng neuron..........................................................................................18<br />
1.2.6.11 Giải thuật di truyền................................................................................19<br />
<br />
tế<br />
H<br />
<br />
1.2.6.12 Tổng hợp hóa.........................................................................................20<br />
1.2.7 Những ứng dụng của khai phá dữ liệu...........................................................20<br />
1.2.8 Những thách thức trong khai phá dữ liệu ......................................................21<br />
Chương II KHAI PHÁ DỮ LIỆU VỚI LUẬT KẾT HỢP VÀ PHÂN CỤM .......23<br />
<br />
in<br />
<br />
h<br />
<br />
2.1. Luật kết hợp ........................................................................................................23<br />
2.1.1 Các khái niệm ................................................................................................23<br />
<br />
cK<br />
<br />
2.1.1.1 Luật kết hợp.............................................................................................23<br />
2.1.1.2 Độ hỗ trợ..................................................................................................23<br />
2.1.1.3 Độ tin cậy ................................................................................................24<br />
<br />
họ<br />
<br />
2.1.1.4 Tập mục ................................................................................................24<br />
2.1.2 Các tính chất ..................................................................................................24<br />
<br />
Đ<br />
ại<br />
<br />
2.1.2.1 Tính chất của tập mục phổ biến .............................................................24<br />
2.1.2.2 Tính chất của luật kết hợp .......................................................................25<br />
2.1.3 Giới thiệu bài toán khai phá luật kết hợp.......................................................26<br />
<br />
ng<br />
<br />
2.1.4 Thuật toán Apriori trong luật kết hợp............................................................27<br />
2.1.4.1 Giới thiệu thuật toán................................................................................27<br />
<br />
ườ<br />
<br />
2.1.4.2 Bài toán 1: xác định các tập mục phổ biến..............................................28<br />
2.1.4.3 Bài toán 2: sinh các luật kết hợp từ tập mục phổ biến ............................30<br />
<br />
Tr<br />
<br />
2.2. Phân cụm dữ liệu.................................................................................................33<br />
2.2.1 Khái niệm.......................................................................................................33<br />
2.2.2 Các yêu cầu về thuật toán phân cụm dữ liệu .................................................36<br />
2.2.3 Các kiểu dữ liệu trong phân cụm...................................................................37<br />
2.2.4 Phép đo độ tương tự và khoảng cách đối với các kiểu dữ liệu ......................38<br />
2.2.5 Thuật toán K-means trong phân cụm dữ liệu ................................................41<br />
<br />
SVTH: Hoàng Thị Hoa<br />
<br />
ii<br />
<br />
GVHD: ThS.Dương Thị Hải Phương<br />
<br />
Khóa luận tốt nghiệp<br />
<br />
2.2.5.1 Giới thiệu bài toán ...................................................................................41<br />
2.2.5.2 Thuật toán K-means ................................................................................42<br />
Chương III ỨNG DỤNG KHAI PHÁ DỮ LIỆU VỚI LUẬT KẾT HỢP VÀ<br />
PHÂN CỤM VÀO HOẠT ĐỘNG PHÂN LOẠI, CHĂM SÓC KHÁCH<br />
<br />
uế<br />
<br />
HÀNG TẠI CÔNG TY CỔ PHẦN KHOÁNG SẢN GẠCH MEN THỪA<br />
THIÊN HUẾ.................................................................................................................48<br />
<br />
tế<br />
H<br />
<br />
3.1. Tổng quan về công ty cổ phần khoáng sản gạch men Thừa Thiên Huế .............48<br />
3.1.1 Giới thiệu sơ lược ..........................................................................................48<br />
3.1.2 Lịch sử hình thành và phát triển ....................................................................49<br />
3.2.3 Chức năng và nhiệm vụ .................................................................................51<br />
<br />
in<br />
<br />
h<br />
<br />
3.2.3.1. Chức năng..............................................................................................51<br />
3.2.3.2. Nhiệm vụ ................................................................................................51<br />
<br />
cK<br />
<br />
3.2.4 Cơ cấu tổ chức bộ máy công ty .....................................................................52<br />
3.2.4.1 Sơ đồ tổ chức bộ máy công ty.................................................................52<br />
3.2.4.2 Quy định nhiệm vụ cụ thể của các phòng ban ........................................53<br />
<br />
họ<br />
<br />
3.2.4.3 Quy mô tổ chức sản xuất sản phẩm ........................................................55<br />
3.2. Phần mềm khai phá dữ liệu RapidMiner ............................................................56<br />
<br />
Đ<br />
ại<br />
<br />
3.2.1 Giới thiệu chung ............................................................................................56<br />
3.2.2 Xây dựng luật kết hợp trong RapidMiner......................................................57<br />
3.2.3 Xây dựng phân cụm dữ liệu trong RapidMiner.............................................59<br />
<br />
ng<br />
<br />
3.3. Ứng dụng khai phá luật kết hợp và phân cụm trong RapidMiner vào cơ sở dữ liệu<br />
quản lý khách hàng tại công ty cổ phần khoáng sản gạch men Thừa Thiên Huế.............60<br />
<br />
ườ<br />
<br />
3.3.1 Xác định nội dung cần khai phá ....................................................................60<br />
<br />
3.3.2 Lựa chọn dữ liệu ............................................................................................60<br />
<br />
Tr<br />
<br />
3.3.3 Tiền xử lý dữ liệu bài toán.............................................................................61<br />
3.3.4 Khai phá dữ liệu với luật kết hợp bằng thuật toán Apriori............................75<br />
3.3.4.1 Đặt tham số cho mô hình.........................................................................75<br />
3.3.4.2 Kết quả phân tích ................................................................................... 76<br />
3.3.4.3 Ý nghĩa của các luật kết hợp tạo được ....................................................79<br />
3.3.5 Khai thác phân cụm dữ liệu bằng thuật toán K-means..................................84<br />
<br />
SVTH: Hoàng Thị Hoa<br />
<br />
iii<br />
<br />
GVHD: ThS.Dương Thị Hải Phương<br />
<br />
Khóa luận tốt nghiệp<br />
<br />
3.3.5.1 Đặt tham số cho mô hình.........................................................................84<br />
3.3.5.2 Kết quả phân tích.....................................................................................85<br />
3.3.5.3 Ý nghĩa của các cụm dữ liệu ...................................................................85<br />
3.4. Một số giải pháp nâng cao hiệu quả chăm sóc khách hàng tại công ty cổ phần<br />
<br />
uế<br />
<br />
khoáng sản gạch men Thừa Thiên Huế......................................................................89<br />
KẾT LUẬN ..................................................................................................................92<br />
<br />
tế<br />
H<br />
<br />
1. Kết quả đạt được .................................................................................................92<br />
2. Hạn chế của đề tài ...............................................................................................92<br />
3. Hướng nghiên cứu tiếp theo của đề tài................................................................92<br />
TÀI LIỆU THAM KHẢO...........................................................................................93<br />
<br />
Tr<br />
<br />
ườ<br />
<br />
ng<br />
<br />
Đ<br />
ại<br />
<br />
họ<br />
<br />
cK<br />
<br />
in<br />
<br />
h<br />
<br />
PHỤ LỤC<br />
<br />
SVTH: Hoàng Thị Hoa<br />
<br />
iv<br />
<br />
GVHD: ThS.Dương Thị Hải Phương<br />
<br />
Khóa luận tốt nghiệp<br />
<br />
THUẬT NGỮ VIẾT TẮT<br />
Các chữ viết tắt<br />
<br />
Ý nhgĩa<br />
Bảo hiểm xã hội<br />
<br />
BHYT<br />
<br />
Bảo hiểm y tế<br />
<br />
Conf<br />
<br />
Confidence<br />
<br />
CP<br />
<br />
Cổ phần<br />
<br />
CSDL<br />
<br />
Cơ sở dữ liệu<br />
<br />
DL<br />
<br />
Dữ liệu<br />
<br />
DNTN<br />
<br />
Doanh nghiệp tư nhân<br />
<br />
HĐQT<br />
<br />
Hội đồng quản trị<br />
<br />
Sup<br />
<br />
tế<br />
H<br />
<br />
h<br />
<br />
in<br />
<br />
Khai phá dữ liệu<br />
Support<br />
<br />
Sản xuất kinh doanh<br />
<br />
họ<br />
<br />
SXKD<br />
<br />
cK<br />
<br />
KPDL<br />
<br />
uế<br />
<br />
BHXH<br />
<br />
Ủy ban nhân dân<br />
<br />
Tr<br />
<br />
ườ<br />
<br />
ng<br />
<br />
Đ<br />
ại<br />
<br />
UBND<br />
<br />
SVTH: Hoàng Thị Hoa<br />
<br />
v<br />
<br />