
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thị Thu Chung
XÂY DỰNG DANH BẠ WEB TIẾNG VIỆT VỚI
PHÂN CỤM PHÂN CẤP VĂN BẢN
KHOÁ LUẬN TỐT NGHIỆP HỆ ĐẠI HỌC CHÍNH QUY
Ngành: Công nghệ thông tin
Hà Nội – 2009

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thị Thu Chung
XÂY DỰNG DANH BẠ WEB TIẾNG VIỆT VỚI
PHÂN CỤM PHÂN CẤP VĂN BẢN
KHOÁ LUẬN TỐT NGHIỆP HỆ ĐẠI HỌC CHÍNH QUY
Ngành: Công nghệ thông tin
Giáo viên hướng dẫn: PGS.TS. Hà Quang Thụy
Giáo viên đồng hướng dẫn: ThS. Nguyễn Thu Trang
Hà Nội - 2009

LỜI CẢM ƠN
Trước tiên, em xin gửi lời cảm ơn chân thành và sự biết ơn sâu sắc tới thày giáo
Phó giáo sư, Tiến sĩ Hà Quang Thụy và Thạc sĩ Nguyễn Thu Trang đã tận tình hướng
dẫn em trong suốt quá trình thực hiện khoá luận.
Em cũng xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo đã giảng dạy em
trong suốt bốn năm học qua, đã cho em những kiến thức quý báu để em có thể vững
bước trên con đường đi của mình.
Em xin gửi lời cảm ơn tới các bạn trong lớp K50CA đã ủng hộ, khuyến khích em
trong suốt quá trình học tập tại trường.
Và lời cuối cùng, em xin bày tỏ lòng chân thành và biết ơn vô hạn tới cha mẹ, và
chị, những người luôn ở bên cạnh em những lúc tôi khó khăn nhất, giúp em vượt qua
khó khăn trong học tập cũng như trong cuộc sống.
Hà Nội, ngày 24 tháng 05 năm 2009
Sinh viên
Nguyễn Thị Thu Chung

TÓM TẮT
Danh bạ web là một hệ thống các trang web được tổ chức dưới dạng cây phân
cấp với mục đích định hướng người dùng tìm kiếm và truy cập thông tin dễ dàng hiệu
quả. Xây dựng một danh bạ tiếng Việt với quy mô lớn và chất lượng cao là một việc
làm rất có ý nghĩa. Tạo dựng một danh bạ theo hướng sử dụng kiến thức chuyên gia
hay lấy ý kiến người dùng là tốn kém và mất nhiều thời gian, vì vậy cần tìm ra một
phương pháp tự động nhóm các trang web vào các chủ đề theo nội dung của chúng.
Giải pháp sử dụng phân cụm web để xây dựng cây phân cấp chủ đề là một phương án
hiệu quả để tạo danh bạ web [22][25][26].
Khóa luận nghiên cứu các phương pháp tạo danh bạ web, đi sâu vào giải pháp
xây dựng cây phấp dựa trên phân cụm văn bản. Khóa luận cũng tập trung tìm hiểu hai
phương pháp phân cụm điển hình nhất là phân cụm cây phân cấp và K-means. Hai
phương pháp đánh giá chất lượng phân cụm được trình bày kỹ làm tiêu chí đánh giá
cho thực nghiệm tiến hành phân cụm tạo danh bạ.
Dựa trên bộ dữ liệu Vnexpress và Wikipedia, khóa luận đã sử dụng phân cụm
cây phân cấp và K-means tạo danh bạ web tiếng Việt đạt kết quả bước đầu khả quan
với chất lượng tốt, độ chính xác cao nhất đạt đến 99%.

MỤC LỤC
BẢNG CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT i
DANH MỤC HÌNH VẼ ii
DANH MỤC BẢNG BIỂU iii
Chương 1. GIỚI THIỆU 1
Chương 2. DANH BẠ WEB 4
1. Giới thiệu về danh bạ web 4
1.1. Phân loại....................................................................................................4
1.2. Đặc điểm....................................................................................................5
1.3. Mục đích....................................................................................................5
2. Một số danh bạ web điển hình và thực trạng ở Việt Nam 6
2.1. Một số danh bạ web điển hình ..................................................................6
2.2. Thực trạng xây dựng danh bạ web ở Việt Nam ........................................8
3. Phương pháp tạo danh bạ 9
3.1. Tích hợp các danh bạ sẵn có......................................................................9
3.2. Xây dựng danh bạ mới ............................................................................15
Chương 3. PHÂN CỤM WEB 17
1. Phân cụm 17
1.1. Bài toán phân cụm nói chung..................................................................17
1.2. Đặc điểm phân cụm.................................................................................22
1.3. Phân cụm kết quả trả về từ máy tìm kiếm...............................................24
2. Một số thuật toán phân cụm web 25
2.1. Phân cụm cây phân cấp ...........................................................................25
2.2. Phân cụm K-means..................................................................................32
3. Phương pháp đánh giá chất lượng phân cụm 36
3.1. Đánh giá dựa vào kinh nghiệm người dùng............................................36
3.2. Đánh giá dựa vào cây chủ đề mẫu...........................................................36
Chương 4. THỰC NGHIỆM 39
1. Dữ liệu 39

