
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
---------------------------------------
NGUYỄN LÂM TÚ
NGHIÊN CỨU PHƢƠNG PHÁP CHO BÀI TOÁN PHÂN
CỤM VÀ XÂY DỰNG HỆ THỐNG THỬ NGHIỆM
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI – 2013

Luận văn đƣợc hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
Ngƣời hƣớng dẫn khoa học: PGS.TS Đoàn Văn Ban
Phản biện 1: ……………………………………………………………………………
Phản biện 2: …………………………………………………………………………..
Luận văn sẽ đƣợc bảo vệ trƣớc Hội đồng chấm luận văn thạc sĩ tại Học viện Công
nghệ Bƣu chính Viễn thông
Vào lúc: ....... giờ ....... ngày ....... tháng ....... .. năm ...............
Có thể tìm hiểu luận văn tại:
- Thƣ viện của Học viện Công nghệ Bƣu chính Viễn thông

1
LỜI MỞ ĐẦU
Thông tin là một nguồn tri thức rồi rào và quan trọng đối với nhân loại,
lƣợng dữ liệu con ngƣời ta thu thập đƣợc ngày càng lớn. Với sự phát triển của công
nghệ điện toán và hệ thống lƣu trữ dữ liệu thì khối lƣợng tài nguyên số ngày càng
trở nên đồ sộ và phức tạp. Trong một xã hội hiện đại, thông tin đóng một vai trò
then chốt. Thông tin không những chỉ là một tri thức mà nó còn đóng những vai trò
khác nhƣ điều hƣớng quá trình sản xuất. Ảnh hƣởng đến hoạt động xã hội hay thị
trƣờng. Tác động đến thói quen ngƣời tiêu dùng.
Việc phân cụm dữ liệu, để phân loại và quản lý nguồn dữ liệu một cách có
hiệu quả là một trong những trọng tâm nghiên cứu trong khai phá dữ liệu và Khoa
học máy tính. Mà ứng dụng của nó đã đƣợc hiện thực hóa nhiều trong thực tế, kinh
doanh thông minh (BI-Bussiness Intellegent) là một ví dụ rõ nét nhất. Các công ty
và doanh nghiệp luôn muốn phát triển khả năng kinh doanh của họ, muốn phục vụ
khách hàng tốt, có thêm khách hàng và lợi nhuận nhiều hơn. Việc hoạch định chiến
lƣợc kinh doanh dựa trên những thông tin hiện tại của công ty là một nhu cầu tất
yếu. Từ đó xây dựng và phát triển các hệ thống BI trở nên rất cần thiết và dần gắn
liền với các hoạt động của công ty.
Phân cụm dữ liệu có khá nhiều phƣơng pháp. Mỗi phƣơng pháp đều có ƣu
điểm, nhƣợc điểm và khả năng ứng dụng riêng của mình. Trong nội dung luận văn
này, tác giả sẽ trình bày phƣơng pháp phân cụm phân cấp kết hợp với mạng nơ-ron
để giải quyết một vấn đề cụ thể trong hệ thống BI.
Luận văn đƣợc trình bày gồm 3 chƣơng với nội dung các chƣơng nhƣ sau:
Chƣơng 1: Giới thiệu về khai phá dữ liệu, các khái niệm cơ bản trong khai
phá dữ liệu. Đồng thời trong chƣơng này tác giả cũng đi sâu vào phân cụm dữ liệu
và một số phƣơng pháp trong lĩnh vực này.
Chƣơng 2: Trong chƣơng này luận văn tập trung vào việc tìm hiều kết hợp
thuật toán trong phân cụm, áp dụng chúng vào một vấn đề cụ thể trong BI. Hai thuật
toán đƣợc tìm hiểu sau trong chƣơng này là phân cụm phân cấp và thuật toán SOM.

2
Bài toán đƣợc đƣa ra để giải quyết là bài toán về phân loại khách hàng triển vọng và
sản phẩm tiềm năng.
Chƣơng 3: Chƣơng này sẽ đi vào việc cài đặt ứng dụng cụ thể dựa trên thuật toán
và vấn đề đã đƣợc nêu ở chƣơng 2. Ứng dụng đƣợc phát triển là một ứng dụng đơn
giản nhƣng bao quát đầy đủ thuật toán cũng nhƣ thỏa mãn bài toán đặt ra.

3
CHƢƠNG 1: KHAI PHÁ DỮ LIỆU VÀ CÁC PHƢƠNG PHÁP
PHÂN CỤM DỮ LIỆU
1.1. Giới thiệu chung về khai phá dữ liệu
Khai phá dữ liệu là một quá trình rút trích hay khai phá tri thức từ một lƣợng
lớn dữ liệu. Ta nói rằng đây là một quá trình là bởi vì nó đƣợc thực hiện theo một
quy trình với nhiều bƣớc rõ ràng, trong đó mỗi bƣớc có một vai trò nhất định. Việc
khai phá dữ liệu là bắt nguồn từ một nhu cầu thực thế khi mà lƣợng dữ liệu con
ngƣời ta sử dụng ngày càng nhiều. Lấy ví dụ nhƣ trong quá trình sản xuất, kinh
doanh, dữ liệu về khách hàng, hợp đồng, số liệu kinh doanh, chứng từ, tài liệu, …
lên đến hàng triệu file hay bản ghi. Việc quản lý và khai thác lƣợng lớn dữ liệu này
là một điều sống còn với các doanh nghiệp.
Quá trình khai phá dữ liệu đƣợc chia thành ba giai đoạn chính, đó là:
- Giai đoạn tiền xử lý (pre-processing)
- Giai đoạn khai phá, rút trích (data mining)
- Giai đoạn hậu lý xong (post-processing)
Hình 1.1.Quá trình khai phá dữ liệu
Trong mỗi giai đoạn lại có thể đƣợc chia thành các nhiệm vụ nhỏ hơn.Thông
thƣờng vì nhiều lý do mà những dữ liệu thô ban đầu chúng ta không thể sử dụng
ngay cho quá trình khai phá đƣợc. Chúng cần đƣợc tinh lọc và xử lý trƣớc. Giai
đoạn tiền xử lý bao gồm bốn bƣớc:
- Bƣớc làm sạch dữ liệu (Cleaning): Loại bỏ những dữ liệu dƣ thừa hoặc
không đồng nhất.

