ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Xuân Thành
TỰ ĐỘNG TỔNG HỢP VÀ PHÂN LOẠI TIN
TRONG HỆ THỐNG TRANG TIN ĐIỆN T
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2010
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Xuân Thành
TỰ ĐỘNG TỔNG HỢP VÀ PHÂN LOẠI TIN
TRONG HỆ THỐNG TRANG TIN ĐIỆN T
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: TS. Nguyễn Trí Thành
HÀ NỘI - 2010
Lời cảm ơn
Lời đầu tiên, tôi xin được y tỏ lòng biết ơn sâu sắc nhất tới thầy giáo TS.
Nguyễn Trí Thành đã tận tình hướng dẫn, đôn đốc tôi trong suốt qtrình là khóa luận tốt
nghiệp.
Tôi xin được chân thành cảm ơn các thầy, các cán bộ của trường Đại Học
Công Nghệ đã tạo cho tôi những điều kiện thuận lợi để học tập và nghiên cứu.
Tôi xin gửi lời cảm ơn tới ThS Nguyễn Thanh Bình, ThS n Thanh tập thể
các anh chị em của công ty iTim đã động viên, khích lệ, tạo điều kiện cho tôi trong suốt
quá trình làm khóa lun.
Tôi cũng xin gửi lời cảm ơn tới các bạn trong tập thể lớp K51CD K51CHTTT đã
ủng hộ và khuyến khích tôi trong suốt quá trình học tập tại trường.
Cuối cùng, tôi muốn được gửi lời cảm ơn hạn tới gia đình và bạn bè, những
người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt
nghiệp.
Tôi xin chân thành cm ơn!
Sinh viên
Lê Xuân Thành
i
Tóm tt ni dung
Trong h thng các website đin t, các trang tin tc chiếm mt vai trò hết sc quan
trng, giúp con người cp nht nhng tin tc thi s mi nht thun tin mi lúc mi nơi.
Theo Hip hi các nhà xut bn trc tuyến (Online Publishers Association OPA) t
phn ln thi gian trên Internet con người ng để đọc tin tc
1
. Như vy, nhu cu cp
nht tin tc ca con ngưi rt ln, và nếu người dùng ch phi vào mt trang Web duy
nht để cp nht được tt c các tin tc thì s tin dng hơn rt nhiu so vi vic phi truy
cp vào nhiu trang.
Khóa lun này tp trung vào vic nghiên cu và xây dng mt h thng tng hp tin
tc, da trên bài toán trích xut thông tin t tài liu Web bài toán phân lp văn bn.
Khóa lun đưa ra hình gom tin t động vi tính m rng cao, trình bày c bước xây
dng mt h thng tng hp tin tc. Khóa lun cũng đã tiến hành chy các thc nghim
đánh giá kết qu. Kết qu đánh giá cho thy cht lượng gom tin phân loi nhanh
đáng tin cy.
1
http://www.zing.vn/news/cong-nghe/phan-lon-thoi-gian-vao-mang-la-de-doc-tin-tuc/a65575.html
ii
Mc lc
Tóm tt ni dung .................................................................................................................i
Mc lc................................................................................................................................ii
Bng các ký hiu viết tt...................................................................................................iv
Danh sách các hình.............................................................................................................v
Danh sách các bng biu...................................................................................................vi
Gii thiu.............................................................................................................................1
Chương 1.
Khái quát v các trang tin tc và các h thng tng hp tin tc ca Vit
Nam ........................................................................................................................3
1.1.
Khái quát chung v các báo đin t........................................................................3
1.2.
Khái quát chung v các h thng tng hp tin tc..................................................3
Chương 2.
Cơ s lý thuyết xây dng mô hình h thng tng hp và phân loi tin t
động ........................................................................................................................8
2.1.
Xây dng crawler ....................................................................................................8
2.1.1.
Khái nim crawler...........................................................................................8
2.1.2.
Xây dng crawler .........................................................................................10
2.2.
Xây dng b trích chn thông tin..........................................................................11
2.2.1.
Trích chn thông tin trên tài liu Web..........................................................11
2.2.2.
Xây dng b trích chn tài liu Web............................................................11
2.3.
Xây dng b phân lp ...........................................................................................12
2.3.1.
Khái nim phân lp văn bn.........................................................................12
2.3.2.
Áp dng thut toán phân lp entropy cc đạiy dng b phân lp văn bn.
......................................................................................................................14
2.3.3.
Phương pháp đánh giá hiu sut phân lp....................................................18
Chương 3.
Xây dng h thng tng hp và phân loi tin t động ...........................21
3.1.
Cơ s thc tin.......................................................................................................21
3.2.
Xây dng mô hình h thng..................................................................................24
3.2.1.
Mô hình tng quan........................................................................................25
3.2.2.
Module chun hóa d liu hun luyn/kim tra mô hình.............................29
3.2.3.
Module phân lp...........................................................................................30
3.2.4.
Module sinh file hun luyn .........................................................................31
3.3.
Kh năng m rng ca h thng............................................................................32