ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Nguyn Th Thu Chung
XÂY DNG DANH B WEB TING VIT VI
PHÂN CM PHÂN CP VĂN BN
KHOÁ LUN TT NGHIP H ĐẠI HC CHÍNH QUY
Ngành: Công ngh thông tin
Hà Ni – 2009
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Nguyn Th Thu Chung
XÂY DNG DANH B WEB TING VIT VI
PHÂN CM PHÂN CP VĂN BN
KHOÁ LUN TT NGHIP H ĐẠI HC CHÍNH QUY
Ngành: Công ngh thông tin
Giáo viên hướng dn: PGS.TS. Hà Quang Thy
Giáo viên đồng hướng dn: ThS. Nguyn Thu Trang
Hà Ni - 2009
LI CM ƠN
Trước tiên, em xin gi li cm ơn chân thành và s biết ơn sâu sc ti thày giáo
Phó giáo sư, Tiến sĩ Hà Quang Thy và Thc sĩ Nguyn Thu Trang đã tn tình hướng
dn em trong sut quá trình thc hin khoá lun.
Em cũng xin bày t li cm ơn sâu sc đến các thy cô giáo đã ging dy em
trong sut bn năm hc qua, đã cho em nhng kiến thc quý báu để em có th vng
bước trên con đường đi ca mình.
Em xin gi li cm ơn ti các bn trong lp K50CA đã ng h, khuyến khích em
trong sut quá trình hc tp ti trường.
Và li cui cùng, em xin bày t lòng chân thành và biết ơn vô hn ti cha m, và
ch, nhng người luôn bên cnh em nhng lúc tôi khó khăn nht, giúp em vượt qua
khó khăn trong hc tp cũng như trong cuc sng.
Hà Ni, ngày 24 tháng 05 năm 2009
Sinh viên
Nguyn Th Thu Chung
TÓM TT
Danh b web là mt h thng các trang web được t chc dưới dng cây phân
cp vi mc đích định hướng người dùng tìm kiếm và truy cp thông tin d dàng hiu
qu. Xây dng mt danh b tiếng Vit vi quy mô ln và cht lượng cao là mt vic
làm rt có ý nghĩa. To dng mt danh b theo hướng s dng kiến thc chuyên gia
hay ly ý kiến người dùng là tn kém và mt nhiu thi gian, vì vy cn tìm ra mt
phương pháp t động nhóm các trang web vào các ch đề theo ni dung ca chúng.
Gii pháp s dng phân cm web để xây dng cây phân cp ch đề là mt phương án
hiu qu để to danh b web [22][25][26].
Khóa lun nghiên cu các phương pháp to danh b web, đi sâu vào gii pháp
xây dng cây php da trên phân cm văn bn. Khóa lun cũng tp trung tìm hiu hai
phương pháp phân cm đin hình nht là phân cm cây phân cp và K-means. Hai
phương pháp đánh giá cht lượng phân cm được trình bày k làm tiêu chí đánh giá
cho thc nghim tiến hành phân cm to danh b.
Da trên b d liu Vnexpress và Wikipedia, khóa lun đã s dng phân cm
cây phân cp và K-means to danh b web tiếng Vit đạt kết qu bước đầu kh quan
vi cht lượng tt, độ chính xác cao nht đạt đến 99%.
MC LC
BNG CÁC KÝ HIU VÀ CH VIT TT i
DANH MC HÌNH V ii
DANH MC BNG BIU iii
Chương 1. GII THIU 1
Chương 2. DANH B WEB 4
1. Gii thiu v danh b web 4
1.1. Phân loi....................................................................................................4
1.2. Đặc đim....................................................................................................5
1.3. Mc đích....................................................................................................5
2. Mt s danh b web đin hình và thc trng Vit Nam 6
2.1. Mt s danh b web đin hình ..................................................................6
2.2. Thc trng xây dng danh b web Vit Nam ........................................8
3. Phương pháp to danh b 9
3.1. Tích hp các danh b sn có......................................................................9
3.2. Xây dng danh b mi ............................................................................15
Chương 3. PHÂN CM WEB 17
1. Phân cm 17
1.1. Bài toán phân cm nói chung..................................................................17
1.2. Đặc đim phân cm.................................................................................22
1.3. Phân cm kết qu tr v t máy tìm kiếm...............................................24
2. Mt s thut toán phân cm web 25
2.1. Phân cm cây phân cp ...........................................................................25
2.2. Phân cm K-means..................................................................................32
3. Phương pháp đánh giá cht lượng phân cm 36
3.1. Đánh giá da vào kinh nghim người dùng............................................36
3.2. Đánh giá da vào cây ch đề mu...........................................................36
Chương 4. THC NGHIM 39
1. D liu 39