
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
**************************
BÁO CÁO BÀI TẬP LỚN
KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU
Đề tài: Tìm hiểu và xây dựng thuật toán K-means
và KNN
Giảng viên hướng dẫn: (Cô) Nguyễn Quỳnh Chi
Nhóm thực hiện: Nhóm 10
Thành viên:
Bùi Trung Hiếu B17DCCN224
Trần Minh Tân B17DCCN552
Bùi Văn Đông B17DCCN132
Nguyễn Như Tuấn B17DCCN659
Vương Đình Hiếu B17DCCN247
1

Phân công công việc:
Thành viên
Công việc
Bùi Trung Hiếu
Tìm hiểu code và dataset
Trần Minh Tân
Tìm hiểu và xây dựng code, tài liệu
Bùi Văn Đông
Tìm hiểu code xây dựng tài liệu
Nguyễn Như Tuấn
Xây dựng tài liệu
Vương Đình Hiếu
Xây dựng tài liệu
2

Giới thiệu
Data mining là lĩnh vực đóng vai trò quan trọng trong việc phân tích và quản lý
dữ liệu. Dựa vào đó chúng ta có thể đưa ra những dự đoán cho kế hoạch tương
lai. Trong thời buổi công nghệ ngày càng phát triển như hiện nay, việc áp dụng
khoa học công nghệ thông tin vào quá trình xử lý và phân tích dữ liệu là vô
cùng cần thiết. Data mining chính là một trong số đó. Sau đây chúng ta sẽ cùng
nhau tìm hiểu về Data mining.
3

Contents
I. Data mining 3
1. Khái niệm 3
2. Các kỹ thuật quan trọng 3
a. Kỹ thuật phân tích phân loại (Classification Analysis) 3
b. Kỹ thuật Association Rule Learning: 4
c. Kỹ thuật phát hiện bất thường (Anomaly or Outlier Detection) 4
d. Kỹ thuật phân tích theo cụm (Clustering Analysis) 4
e. Kỹ thuật dự báo (prediction) 4
f. Kỹ thuật Sequential Patterns: 5
g. Kỹ thuật Decision Trees 5
II. K-Mean 6
1. Khái niệm: 6
2. Ý tưởng của thuật toán k-means 7
3. Một số lưu ý: 7
a. Lựa chọn số cụm: 7
b. Khởi tạo K vị trí ban đầu: 7
c. Về vấn đề tính dừng (hội tụ) 7
III. KNN (K-Nearest Neighbors) 9
1. Giới thiệu: 9
2. Khái niệm: 9
3. Thuật toán: 10
4. Ứng dụng: 10
4

I. Data mining
Data Mining là một trong những thuật ngữ mới xuất hiện đầu thế kỷ 21, nó
là hệ quả của sự bùng nổ Internet đạt tới đỉnh điểm. Theo một công bố của
Intel vào tháng 9 năm 2013 cứ 11 giây trôi qua chúng ta có thêm 1 Petabybe
dữ liệu, nó tương đương với một video chất lượng HD dài 13 năm. Và để
khai phá, trích xuất nó Data Mining ra đời, dưới đây là khái niệm Data
Mining là gì?
1. Khái niệm
Data mining – khai phá dữ liệu là quá trình phân loại, sắp xếp các tập hợp dữ
liệu lớn để xác định các mẫu và thiết lập các mối liên hệ nhằm giải quyết các
vấn đề nhờ phân tích dữ liệu. Các MCU khai phá dữ liệu cho phép các doanh
nghiệp có thể dự đoán được xu hướng tương lai.
Quá trình khai phá dữ liệu là một quá trình phức tạp bao gồm kho dữ liệu
chuyên sâu cũng như các công nghệ tính toán. Hơn nữa, Data Mining không
chỉ giới hạn trong việc trích xuất dữ liệu mà còn được sử dụng để chuyển
đổi, làm sạch, tích hợp dữ liệu và phân tích mẫu.
Có nhiều tham số quan trọng khác nhau trong Data Mining, chẳng hạn như
quy tắc kết hợp, phân loại, phân cụm và dự báo. Một số tính năng chính của
Data Mining:
●Dự đoán các mẫu dựa trên xu hướng trong dữ liệu.
●Tính toán dự đoán kết quả
●Tạo thông tin phản hồi để phân tích
●Tập trung vào cơ sở dữ liệu lớn hơn.
●Phân cụm dữ liệu trực quan
2. Các kỹ thuật quan trọng
Về cơ bản, Data Mining hay khai phá dữ liệu là việc xử lý, nhận biết các xu
hướng từ các thông tin dữ liệu để có thể đưa ra quyết định hoặc đánh giá.
Thông thường, các bạn sẽ thấy có 6 kỹ thuật cốt lõi, được sử dụng nhiều
trong việc khai phá dữ liệu:
a. Kỹ thuật phân tích phân loại (Classification Analysis)
Kỹ thuật khai phá dữ liệu đầu tiên là kỹ thuật phân tích phân loại. Đây
là kỹ thuật cho phép phân loại một đối tượng vào một hoặc một số lớp
cho trước.
Chúng ta thường sử dụng kỹ thuật khai thác dữ liệu này để lấy các
thông tin quan trọng từ dữ liệu và siêu dữ liệu. Vì vậy, trong phân tích
5