i
LI CẢM ƠN
Trước tiên, tôi xin được gi li cảm ơn và lòng biết ơn sâu sắc nht ti Thy giáo,
PGS. TS. Nguyễn Trí Thành đã tận tình ch bảo, hướng dn, động viên giúp đ tôi
trong sut quá trình thc hin luận văn tốt nghip.
Tôi xin gi li cảm ơn tới các thầy trường Đại Hc Công Ngh - Đại Hc Quc
Gia Ni nhng người đã tận tình giúp đ, c vũ, góp ý cho tôi trong suốt thi
gian tôi hc tp và nghiên cu ti trưng.
Tôi xin gi li cm ơn tới các anh ch, các bn hc viên cùng hc tp nghiên cu
ti Trường Đi hc Công ngh đã hỗ tr tôi rt nhiu trong quá trình hc tập cũng như
thc hin luận văn.
Cui cùng, tôi mun gi li cảm ơn tới gia đình và bạn bè, những ngưi thân yêu
luôn bên cnh, quan tâm, động viên tôi trong sut quá trình hc tp thc hin lun
văn tốt nghip này.
Tôi xin chân thành cảm ơn!
Hà Ni, tháng 05 năm 2016
Hc viên
Cn Mạnh Cưng
ii
LỜI CAM ĐOAN
Tôi xin cam đoan giải pháp X trùng lp, phân loại, xác định t khóa quan
trng sinh tóm tắt cho văn bản trong mt h thng thu thp tin tc t động được
trình bày trong luận văn này do tôi thc hiện dưới s ng dn ca PGS. TS. Nguyn
Trí Thành.
Tôi đã trích dẫn đầy đủ các tài liu tham kho, công trình nghiên cu liên quan
trong c quc tế. Tt c nhng tham kho t các nghiên cứu liên quan đều đưc
nêu ngun gc mt cách rõ ràng t danh mc tài liu tham kho trong lun văn.
Hà Nội, tháng 5 năm 2016
Tác gi luận văn
Cn Mạnh Cường
1
MC LC
LI CẢM ƠN .................................................................................................................. i
LỜI CAM ĐOAN ........................................................................................................... ii
MC LC .......................................................................................................................1
DANH MC CÁC KÝ HIU, CÁC CH VIT TT ..................................................4
DANH MC CÁC HÌNH ...............................................................................................5
DANH MC CÁC BNG ..............................................................................................7
Chương 1. GIỚI THIU Đ TÀI ..................................................................................10
1.1. Tng quan v h thng thu thp tin tc t động ................................................10
1.1.1. Tng quan v Crawler .................................................................................10
1.1.2. H thng thu thp tin tc t động ................................................................12
1.2. Các bài toán trong khuôn kh đề tài ...................................................................14
1.2.1. Bài toán x lý trùng lp tin tc ....................................................................14
1.2.2. Bài toán phân loi tin tc .............................................................................14
1.2.3. Bài toán xác định t khóa quan trng và chn tóm tt. ...............................15
1.3. Ý nghĩa của các bài toán được gii quyết trong đề tài .......................................16
1.3.1. Ý nghĩa khoa hc .........................................................................................16
1.3.2. Ý nghĩa thc tin .........................................................................................16
1.4. Kết lun ..............................................................................................................16
Chương 2. MỘT S PHƯƠNG PHÁP TIP CN BÀI TOÁN ..................................17
2.1. Các phương pháp tiếp cn bài toán trùng lp tin tc ..........................................17
2.1.1. Bag of Words ...............................................................................................17
2.1.2. Shingling ......................................................................................................18
2.1.3. Hashing ........................................................................................................20
2.1.4. MinHash ......................................................................................................20
2.1.5. SimHash ......................................................................................................22
2
2.2. Các phương pháp tiếp cn bài toán phân loi tin tc .........................................24
2.2.1. Tiếp cn dựa trên phương pháp cây quyết định ..........................................25
2.2.2. Phân loi d liu Naïve Bayes.....................................................................26
2.2.3. Tiếp cận theo phương pháp SVM................................................................29
2.3. Tiếp cận bài toán xác đnh t khóa quan trng và chn câu tóm tt ..................33
2.3.1. Phương pháp TF-IDF ..................................................................................33
2.3.2. Phương pháp Edmundson ............................................................................34
2.4. Tng kết ..............................................................................................................36
Chương 3. ĐỀ XUT GII PHÁP VÀ CI TIN ÁP DNG GII QUYT CÁC BÀI
TOÁN TRONG THC T ...........................................................................................37
3.1. H thu thp tin tc t đng m rng ..................................................................37
3.2. Gii quyết bài toán trùng lp tin tc ...................................................................39
3.2.1. Yêu cu thc tế bài toán x lý trùng lp tin tc ..........................................39
3.2.2. Mô hình gii pháp thc tế ............................................................................39
3.3. Gii quyết bài toán phân loi tin tc ..................................................................40
3.3.1. Yêu cu bài toán thc tế ..............................................................................40
3.3.2. Mô hình gii pháp thc tế ............................................................................41
3.4. Gii quyết bài toán xác định t khóa quan trng và chn câu tóm tt ...............42
3.4.1. Yêu cu bài toán thc tế ..............................................................................42
3.4.2. Mô hình gii pháp thc tế ............................................................................43
3.5. Tng kết ..............................................................................................................44
Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ KT QU ...........................................46
4.1. Môi trưng thc nghim và các công c s dng trong thc nghim................46
4.2. Quá trình thu thp d liu tin tc và tin x ..................................................47
4.2.1. Thu thp d liu tin tc ...............................................................................47
4.2.2. Tin x lý d liu ........................................................................................47
4.3. Đánh giá phát hin trùng lp tin tc ...................................................................48
4.3.1. Phương pháp đánh giá. ................................................................................48
4.3.2. Kết qu đánh giá. .........................................................................................48
3
4.4. Đánh giá b phân loi tin tc .............................................................................49
4.4.1. Phương pháp đánh giá. ................................................................................49
4.4.2. Kết qu đánh giá. .........................................................................................51
4.5. Đánh giá kết qu xác đnh t khóa quan trng và chn câu tóm tt ..................52
4.5.1. Phương pháp đánh giá. ................................................................................52
4.5.2. Kết qu đánh giá. .........................................................................................52
4.6. Tng kết ..............................................................................................................53
TNG KT ...................................................................................................................54
Kết qu đạt được ........................................................................................................54
Hn chế .......................................................................................................................54
ng phát trin ........................................................................................................55
TÀI LIU THAM KHO .............................................................................................56
PH LC ......................................................................................................................57