
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Đào Minh Tùng
PHÂN CỤM ĐA MỨC WEB BẰNG K-MEANS
DỰA TRÊN CHỦ ĐỀ ẨN
VÀ THỰC NGHIỆM ĐÁNH GIÁ
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Hà Nội - 2011

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Đào Minh Tùng
PHÂN CỤM ĐA MỨC WEB BẰNG K-MEANS
DỰA TRÊN CHỦ ĐỀ ẨN
VÀ THỰC NGHIỆM ĐÁNH GIÁ
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: Tiến sỹ Đoàn Sơn
Hà Nội - 2011

i
Lời cảm ơn
Trước tiên, tôi muốn gửi lời cảm ơn sâu sắc đến Tiến Sĩ Đoàn Sơn và Phó Giáo
sư Tiến sĩ Hà Quang Thụy, người đã tận tình hướng dẫn tôi trong suốt quá trình thực
hiện khóa luận.
Tôi xin gửi lời cảm ơn chân thành và sâu sắc tới các thầy, cô tại trường Đại học
Công Nghệ đã dạy dỗ và tận tình chỉ bảo cho tôi trong suốt quá trình học tập tại
trường.
Tôi xin cảm ơn tập thể sinh viên K52CHTTT Trường Đại học Công Nghệ cũng
như các bạn trong phòng nghiên cứu KT-SISLAB đã ủng hộ và khuyến khích tôi trong
quá trình nghiên cứu và thực hiện khóa luận này.
Tôi xin cám ơn sự hỗ trợ từ đề tài QG.10.38 của Đại học Quốc gia Hà Nội.
Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân
yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp.
Mặc dù đã cố gắng hoàn thành luận văn trong phạm vi và khả năng cho phép
nhưng chắc chắn sẽ không tránh khỏi những thiếu sót. Tôi rất mong nhận được sự góp
ý chân thành của thầy cô và các bạn để tôi hoàn thiện khóa luận của mình.
Hà Nội, ngày 20 tháng 5 năm
2011
Sinh viên
Đào Minh Tùng

i
Tóm tắt nội dung
Trước sự bùng nổ của thông tin, phân cụm dữ liệu nói chung và phân cụm trang
web nói riêng đã trở thành một lĩnh vực nghiên cứu quan trọng. Đặc biệt, hiện nay sự
quan tâm cải tiến đối với chất lượng thuật toán phân cụm rất cao vì sự cần thiết của
những ứng dụng có thể giúp người sử dụng Internet xử lý trạng thái quá tải thông tin,
đưa ra cái nhìn tổng quan về thông tin tìm kiếm được trả về.
Khóa luận đề xuất phương pháp phân cụm trang web đa mức dưới dạng cây bằng
thuật toán K-means dựa trên chủ đề Nn. Thực nghiệm cho kết quả ban đầu khá tốt, có
thể tiếp tục phát triển để ứng dụng trong máy tìm kiếm.

ii
Lời cam đoan
Em xin cam đoan rằng đây là công trình nghiên cứu của mình, có sự giúp đỡ từ
giáo viên hướng dẫn là TS. Đoàn Sơn. Các nội dung nghiên cứu và kết quả trong đề tài
này là trung thực, không sao chép từ bất cứ nguồn nào có sẵn. Những số liệu trong các
bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu thập
từ nhiều nguồn khác nhau có ghi trong phần tài liệu tham khảo.
Nếu phát hiện có bất kỳ sự gian lận nào, em xin hoàn toàn chịu trách nhiệm
trước hội đồng, cũng như kết quả khóa luận tốt nghiệp của mình.
Đào Minh Tùng

