TRƯỜNG ĐẠI HC HÀNG HI VIT NAM
KHOA CÔNG NGH THÔNG TIN
THUYT MINH
ĐỀ TÀI NCKH CP TRƯỜNG
ĐỀ TÀI
NGHIÊN CU V THUT TOÁN PHÂN LP S DNG QUÁ
TRÌNH HC MÁY BÁN GIÁM SÁT, NG DNG TRONG
VIC PHÂN LP TRANG WEB
Ch nhiệm đề tài: ThS. Lê Hoàng Dương
Thành viên tham gia: ThS. Ngô Quc Vinh
Hi Phòng, tháng 4/2016
i
MC LC
M ĐẦU ............................................................................................................... 1
1. Tính cp thiết ca vấn đề nghiên cu ............................................................ 1
2. Tng quan v tình hình nghiên cu thuộc lĩnh vực đề tài ............................. 1
3. Mục tiêu, đối tượng, phm vi nghiên cu ...................................................... 2
4. Phương pháp nghiên cứu, kết cu ca công trình nghiên cu ....................... 3
5. Kết qu đạt được của đề tài ............................................................................ 3
CHƯƠNG 1 TỔNG QUAN V VIC PHÂN LP S DỤNG PHƯƠNG
PHÁP HC BÁN GIÁM SÁT ............................................................................. 4
1.1. Tng quan v phân lp d liu. .................................................................. 4
1.1.1. Tng quan v bài toán phân lp d liu ............................................... 4
1.1.2. Tng quan v quá trình phân lp d liu .............................................. 5
1.2. Tng quan v phân lp d liệu văn bản ...................................................... 6
1.2.1. Thc trng ca vấn đề. .......................................................................... 6
1.2.2. S dng mô hình vector biu diễn văn bản .......................................... 7
1.2.3. Tng quan v phương pháp phân lớp văn bản .................................... 11
1.2.4. ng dng ca vic phân lp d liệu văn bản ..................................... 12
1.2.5. Quá trình phân lp d liệu văn bản: ................................................... 12
1.2.6. Đánh giá máy phân lớp d liệu văn bản ............................................. 14
1.2.7. Nhng yếu t ảnh hưởng đến quá trình phân lp. .............................. 15
1.3. Các thut toán hc máy ng dng trong phân lp .................................... 15
1.3.1. Phương pháp học có giám sát ............................................................. 15
1.3.2. Thut toán phân lp d liệu theo phương pháp học bán giám sát ...... 18
ii
CHƯƠNG 2 BÀI TOÁN PHÂN LP ÁP DỤNG SVM PHƯƠNG PHÁP
HC BÁN GIÁM SÁT SVM ............................................................................. 21
2.1. Máy h tr vector Support Vector Machine .......................................... 21
2.1.1. Gii thiu v thut toán SVM ............................................................. 22
2.1.2. Hun luyn SVM ................................................................................ 23
2.1.3. Ưu điểm ca SVM trong phân lớp văn bản ........................................ 24
2.2. Bán giám sát SVM và phân lp trang Web .............................................. 26
2.2.1. Gii thiu v bán giám sát SVM......................................................... 26
2.2.2. Phân lp trang Web s dng bán giám sát SVM ................................ 27
CHƯƠNG 3 KT QU TH NGHIỆM VÀ ĐÁNH GIÁ ................................ 30
3.1. Gii thiu v phn mm SVMlin ............................................................. 30
3.2. S dng phn mm và kết qu đánh giá ................................................... 31
KT LUN ......................................................................................................... 34
TÀI LIU THAM KHO ................................................................................... 35
iii
DANH SÁCH HÌNH NH
S hình
Tên hình
Trang
1.1
Mô hình tng quan v bài toán phân lp
5
1.2
d v vic biu diễn văn bản bi vector
đặc trưng
8
1.3
đồ biu din quá trình phân lp d liu
văn bản
13
1.4
Mt siêu phng h phân các đim thành 2 lp
+ - vi khong cách biên ln nht. Các
đim gn mt siêu phng h nht các
vector h tr
18
1.5
Thut toán Self training
19
1.6
Thut toán Co training
20
iv
DANH SÁCH THUT NG, CH VIT TT
Ch viết tt
Trang
SVM: Support Vector Machine
1
VC: Vapnik-Chervonenkis
21
S3VM: Semi Supervised Support Vector Machine
26