ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Đào Minh Tùng
PHÂN CM ĐA MC WEB BNG K-MEANS
DA TRÊN CH Đ N
VÀ THC NGHIM ĐÁNH GIÁ
KHÓA LUN TT NGHIP ĐẠI HC H CHÍNH QUY
Ngành: Công ngh thông tin
Hà Ni - 2011
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Đào Minh Tùng
PHÂN CM ĐA MC WEB BNG K-MEANS
DA TRÊN CH ĐỀ N
VÀ THC NGHIM ĐÁNH GIÁ
KHÓA LUN TT NGHIP ĐẠI HC H CHÍNH QUY
Ngành: Công ngh thông tin
Cán b hướng dn: Tiến s Đoàn Sơn
Hà Ni - 2011
i
Li cm ơn
Trước tiên, tôi mun gi li cm ơn sâu sc đến Tiến Sĩ Đoàn Sơn Phó Giáo
sư Tiến sĩ Quang Thy, người đã tn tình hướng dn tôi trong sut quá trình thc
hin khóa lun.
Tôi xin gi li cm ơn chân thành sâu sc ti các thy, ti trường Đại hc
Công Ngh đã dy d tn tình ch bo cho tôi trong sut quá trình hc tp ti
trường.
Tôi xin cm ơn tp th sinh viên K52CHTTT Trường Đi hc Công Ngh cũng
như các bn trong phòng nghiên cu KT-SISLAB đã ng h khuyến khích tôi trong
quá trình nghiên cu và thc hin khóa lun này.
Tôi xin cám ơn s h tr t đề tài QG.10.38 ca Đi hc Quc gia Hà Ni.
Cui cùng, tôi mun gi li cm vô hn ti gia đình bn bè, nhng người thân
yêu luôn bên cnh và động viên tôi trong sut quá trình thc hin khóa lun tt nghip.
Mc đã c gng hoàn thành lun văn trong phm vi kh năng cho phép
nhưng chc chn s không tránh khi nhng thiếu sót. Tôi rt mong nhn được s góp
ý chân thành ca thy cô và các bn để tôi hoàn thin khóa lun ca mình.
Ni, ngày 20 tháng 5 năm
2011
Sinh viên
Đào Minh Tùng
i
Tóm tt ni dung
Trước s bùng n ca thông tin, phân cm d liu nói chung phân cm trang
web nói riêng đã tr thành mt lĩnh vc nghiên cu quan trng. Đặc bit, hin nay s
quan tâm ci tiến đi vi cht lượng thut toán phân cm rt cao s cn thiết ca
nhng ng dng th giúp người s dng Internet x trng thái quá ti thông tin,
đưa ra cái nhìn tng quan v thông tin tìm kiếm được tr v.
Khóa lun đề xut phương pháp phân cm trang web đa mc dưới dng cây bng
thut toán K-means da trên ch đề Nn. Thc nghim cho kết qu ban đầu khá tt,
th tiếp tc phát trin để ng dng trong máy tìm kiếm.
ii
Li cam đoan
Em xin cam đoan rng đây ng trình nghiên cu ca mình, s giúp đỡ t
giáo viên hướng dn là TS. Đoàn Sơn. Các ni dung nghiên cu và kết qu trong đề tài
này trung thc, không sao chép t bt c ngun nào có sn. Nhng s liu trong các
bng biu phc v cho vic phân tích, nhn xét, đánh giá được chính tác gi thu thp
t nhiu ngun khác nhau có ghi trong phn tài liu tham kho.
Nếu phát hin bt k s gian ln nào, em xin hoàn toàn chu trách nhim
trước hi đồng, cũng như kết qu khóa lun tt nghip ca mình.
Đào Minh Tùng