HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
---------------------------------------
NGUYỄN LÂM
NGHIÊN CỨU PHƢƠNG PHÁP CHO BÀI TOÁN PHÂN
CỤM VÀ XÂY DỰNG HỆ THỐNG THỬ NGHIỆM
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI – 2013
Luận văn đƣợc hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
Ngƣời hƣớng dẫn khoa học: PGS.TS Đoàn Văn Ban
Phản biện 1: ……………………………………………………………………………
Phản biện 2: …………………………………………………………………………..
Luận văn sẽ đƣợc bảo vệ trƣớc Hội đồng chấm luận văn thạc tại Học viện Công
nghệ Bƣu chính Viễn thông
Vào lúc: ....... giờ ....... ngày ....... tháng ....... .. năm ...............
Có thể tìm hiểu luận văn tại:
- Thƣ viện của Học viện Công nghệ Bƣu chính Viễn thông
1
LỜI MỞ ĐẦU
Thông tin một nguồn tri thức rồi rào quan trọng đối với nhân loại,
lƣợng dữ liệu con ngƣời ta thu thập đƣợc ngày càng lớn. Với sự phát triển của công
nghệ điện toán hệ thống u trữ dữ liệu thì khối lƣợng i nguyên số ny càng
trở nên đồ sộ phức tạp. Trong một hội hiện đại, thông tin đóng một vai trò
then chốt. Thông tin không những chỉ một tri thức còn đóng những vai trò
khác nhƣ điều hƣớng quá trình sản xuất. Ảnh hƣởng đến hoạt động hội hay th
trƣờng. Tác động đến thói quen ngƣời tiêu dùng.
Việc phân cụm dữ liệu, để phân loại quản nguồn dữ liệu một cách
hiệu quả một trong những trọng tâm nghiên cứu trong khai phá dữ liệu và Khoa
học máy tính. Mà ứng dụng của đã đƣợc hiện thực hóa nhiều trong thực tế, kinh
doanh thông minh (BI-Bussiness Intellegent) một dụ nét nhất. Các công ty
doanh nghiệp luôn muốn phát triển khả năng kinh doanh của họ, muốn phục vụ
khách ng tốt, thêm khách hàng lợi nhuận nhiều hơn. Việc hoạch định chiến
lƣợc kinh doanh dựa trên những thông tin hiện tại của công ty một nhu cầu tất
yếu. Từ đó y dựng phát triển các hệ thống BI trở nên rất cần thiết dần gắn
liền với các hoạt động của công ty.
Phân cụm dữ liệu có khá nhiều phƣơng pháp. Mỗi phƣơng pháp đều có ƣu
điểm, nhƣợc điểm và khả năng ứng dụng riêng của mình. Trong nội dung luận văn
này, tác giả sẽ trình bày phƣơng pháp phân cụm phân cấp kết hợp với mạng nơ-ron
để giải quyết một vấn đề cụ thể trong hệ thống BI.
Luận văn đƣợc trình bày gồm 3 chƣơng với nội dung các chƣơng nhƣ sau:
Chƣơng 1: Giới thiệu về khai phá dữ liệu, các khái niệm cơ bản trong khai
phá dữ liệu. Đồng thời trong chƣơng này tác giả cũng đi sâu vào phân cụm dữ liệu
và một số phƣơng pháp trong lĩnh vực này.
Chƣơng 2: Trong chƣơng này luận văn tập trung vào việc tìm hiều kết hợp
thuật toán trong phân cụm, áp dụng chúng vào một vấn đề cụ thể trong BI. Hai thuật
toán đƣợc tìm hiểu sau trong chƣơng này là phân cụm phân cấp và thuật toán SOM.
2
Bài toán đƣợc đƣa ra để giải quyết là bài toán về phân loại khách hàng triển vọng và
sản phẩm tiềm năng.
Chƣơng 3: Chƣơng này sẽ đi vào việc cài đặt ứng dụng cụ thể dựa trên thuật toán
và vấn đề đã đƣợc nêu ở chƣơng 2. Ứng dụng đƣợc phát triển là một ứng dụng đơn
giản nhƣng bao quát đầy đủ thuật toán cũng nhƣ thỏa mãn bài toán đặt ra.
3
CHƢƠNG 1: KHAI PHÁ DỮ LIỆU VÀ CÁC PHƢƠNG PHÁP
PHÂN CỤM DỮ LIỆU
1.1. Giới thiệu chung về khai phá dữ liệu
Khai phá dữ liệu một quá trình rút trích hay khai phá tri thức từ một lƣợng
lớn dữ liệu. Ta nói rằng đây một quá trình bởi đƣợc thực hiện theo một
quy trình với nhiều bƣớc ràng, trong đó mỗi bƣớc một vai trò nhất định. Việc
khai phá dữ liệu bắt nguồn từ một nhu cầu thực thế khi ợng dữ liệu con
ngƣời ta sử dụng ngày càng nhiều. Lấy dụ nhƣ trong quá trình sản xuất, kinh
doanh, dữ liệu về khách hàng, hợp đồng, số liệu kinh doanh, chứng từ, tài liệu,
lên đến hàng triệu file hay bản ghi. Việc quản khai thác ợng lớn dữ liệu y
là một điều sống còn với các doanh nghiệp.
Quá trình khai phá dữ liệu đƣợc chia thành ba giai đoạn chính, đó là:
- Giai đoạn tiền xử lý (pre-processing)
- Giai đoạn khai phá, rút trích (data mining)
- Giai đoạn hậu lý xong (post-processing)
Hình 1.1.Quá trình khai phá dữ liệu
Trong mỗi giai đoạn lại thể đƣợc chia thành các nhiệm vụ nhỏ hơn.Thông
thƣờng nhiều do những dữ liệu thô ban đầu chúng ta không thể sử dụng
ngay cho quá trình khai phá đƣợc. Chúng cần đƣợc tinh lọc xử trƣớc. Giai
đoạn tiền xử lý bao gồm bốn bƣớc:
- Bƣớc m sạch dữ liệu (Cleaning): Loại bỏ những dữ liệu thừa hoặc
không đồng nhất.