
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Xuân Thành
TỰ ĐỘNG TỔNG HỢP VÀ PHÂN LOẠI TIN
TRONG HỆ THỐNG TRANG TIN ĐIỆN TỬ
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2010

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Xuân Thành
TỰ ĐỘNG TỔNG HỢP VÀ PHÂN LOẠI TIN
TRONG HỆ THỐNG TRANG TIN ĐIỆN TỬ
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: TS. Nguyễn Trí Thành
HÀ NỘI - 2010

Lời cảm ơn
Lời đầu tiên, tôi xin được bày tỏ lòng biết ơn sâu sắc nhất tới thầy giáo – TS.
Nguyễn Trí Thành đã tận tình hướng dẫn, đôn đốc tôi trong suốt quá trình là khóa luận tốt
nghiệp.
Tôi xin được chân thành cảm ơn các thầy, cô và các cán bộ của trường Đại Học
Công Nghệ đã tạo cho tôi những điều kiện thuận lợi để học tập và nghiên cứu.
Tôi xin gửi lời cảm ơn tới ThS Nguyễn Thanh Bình, ThS Lê Văn Thanh và tập thể
các anh chị em của công ty iTim đã động viên, khích lệ, tạo điều kiện cho tôi trong suốt
quá trình làm khóa luận.
Tôi cũng xin gửi lời cảm ơn tới các bạn trong tập thể lớp K51CD và K51CHTTT đã
ủng hộ và khuyến khích tôi trong suốt quá trình học tập tại trường.
Cuối cùng, tôi muốn được gửi lời cảm ơn vô hạn tới gia đình và bạn bè, những
người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt
nghiệp.
Tôi xin chân thành cảm ơn!
Sinh viên
Lê Xuân Thành

i
Tóm tắt nội dung
Trong hệ thống các website điện tử, các trang tin tức chiếm một vai trò hết sức quan
trọng, giúp con người cập nhật những tin tức thời sự mới nhất thuận tiện mọi lúc mọi nơi.
Theo Hiệp hội các nhà xuất bản trực tuyến (Online Publishers Association – OPA) thì
phần lớn thời gian trên Internet con người dùng để đọc tin tức
1
. Như vậy, nhu cầu cập
nhật tin tức của con người là rất lớn, và nếu người dùng chỉ phải vào một trang Web duy
nhất để cập nhật được tất cả các tin tức thì sẽ tiện dụng hơn rất nhiều so với việc phải truy
cập vào nhiều trang.
Khóa luận này tập trung vào việc nghiên cứu và xây dựng một hệ thống tổng hợp tin
tức, dựa trên bài toán trích xuất thông tin từ tài liệu Web và bài toán phân lớp văn bản.
Khóa luận đưa ra mô hình gom tin tự động với tính mở rộng cao, trình bày các bước xây
dựng một hệ thống tổng hợp tin tức. Khóa luận cũng đã tiến hành chạy các thực nghiệm
và đánh giá kết quả. Kết quả đánh giá cho thấy chất lượng gom tin và phân loại là nhanh
và đáng tin cậy.
1
http://www.zing.vn/news/cong-nghe/phan-lon-thoi-gian-vao-mang-la-de-doc-tin-tuc/a65575.html

ii
Mục lục
Tóm tắt nội dung .................................................................................................................i
Mục lục................................................................................................................................ii
Bảng các ký hiệu viết tắt...................................................................................................iv
Danh sách các hình.............................................................................................................v
Danh sách các bảng biểu...................................................................................................vi
Giới thiệu.............................................................................................................................1
Chương 1.
Khái quát về các trang tin tức và các hệ thống tổng hợp tin tức của Việt
Nam ........................................................................................................................3
1.1.
Khái quát chung về các báo điện tử........................................................................3
1.2.
Khái quát chung về các hệ thống tổng hợp tin tức..................................................3
Chương 2.
Cơ sở lý thuyết xây dựng mô hình hệ thống tổng hợp và phân loại tin tự
động ........................................................................................................................8
2.1.
Xây dựng crawler ....................................................................................................8
2.1.1.
Khái niệm crawler...........................................................................................8
2.1.2.
Xây dựng crawler .........................................................................................10
2.2.
Xây dựng bộ trích chọn thông tin..........................................................................11
2.2.1.
Trích chọn thông tin trên tài liệu Web..........................................................11
2.2.2.
Xây dựng bộ trích chọn tài liệu Web............................................................11
2.3.
Xây dựng bộ phân lớp ...........................................................................................12
2.3.1.
Khái niệm phân lớp văn bản.........................................................................12
2.3.2.
Áp dụng thuật toán phân lớp entropy cực đại xây dựng bộ phân lớp văn bản.
......................................................................................................................14
2.3.3.
Phương pháp đánh giá hiệu suất phân lớp....................................................18
Chương 3.
Xây dựng hệ thống tổng hợp và phân loại tin tự động ...........................21
3.1.
Cơ sở thực tiễn.......................................................................................................21
3.2.
Xây dựng mô hình hệ thống..................................................................................24
3.2.1.
Mô hình tổng quan........................................................................................25
3.2.2.
Module chuẩn hóa dữ liệu huấn luyện/kiểm tra mô hình.............................29
3.2.3.
Module phân lớp...........................................................................................30
3.2.4.
Module sinh file huấn luyện .........................................................................31
3.3.
Khả năng mở rộng của hệ thống............................................................................32

