TRƯỜNG ĐẠI HC KHOA HC T NHIÊN
KHOA CÔNG NGH THÔNG TIN
B MÔN H THNG THÔNG TIN
SINH VIÊN THC HIN
NGUYN TRN THIÊN THANH - TRN KHI HOÀNG
TÌM HIU CÁC HƯỚNG TIP CN
BÀI TOÁN PHÂN LOI VĂN BN VÀ
XÂY DNG PHN MM
PHÂN LOI TIN TC BÁO ĐIN T
KHÓA LUN C NHÂN TIN HC
Tp.HCM, 2005
TRƯỜNG ĐẠI HC KHOA HC T NHIÊN
KHOA CÔNG NGH THÔNG TIN
B MÔN H THNG THÔNG TIN
SINH VIÊN THC HIN
NGUYN TRN THIÊN THANH - 0112243
TRN KHI HOÀNG - 0112305
TÌM HIU CÁC HƯỚNG TIP CN
BÀI TOÁN PHÂN LOI VĂN BN VÀ
XÂY DNG PHN MM
PHÂN LOI TIN TC BÁO ĐIN T
KHÓA LUN C NHÂN TIN HC
GIÁO VIÊN HƯỚNG DN
C nhân : NGUYN VIT THÀNH
Thc sĩ : NGUYN THANH HÙNG
Niên khóa 2001-2005
i
LI CM ƠN
Chúng em xin gi li cm ơn chân thành và sâu sc nht đến thy Nguyn
Vit Thành và thy Nguyn Thanh Hùng đã tn ty hướng dn, động viên,
giúp đỡ chúng em trong sut thi gian thc hin đề tài.
Chúng em xin chân thành cm ơn quý Thy Cô trong Khoa Công Ngh
Thông Tin truyn đạt kiến thc quý báu cho chúng em trong nhng năm hc
va qua.
Chúng con xin nói lên lòng biết ơn đối vi Ông Bà, Cha M luôn là ngun
chăm sóc, động viên trên mi bước đường hc vn ca chúng con.
Xin chân thành cám ơn các anh ch và bn bè đã ng h, giúp đỡđộng
viên chúng em trong thi gian hc tp và nghiên cu.
Mc dù chúng em đã c gng hoàn thành lun văn trong phm vi và kh
năng cho phép nhưng chc chn s không tránh khi nhng thiếu sót. Chúng
em kính mong nhn được s cm thông và tn tình ch bo ca quý Thy Cô
và các bn.
Sinh viên thc hin,
Nguyn Trn Thiên Thanh & Trn Khi Hoàng
07/2005
ii
LI NÓI ĐẦU
Trong nhng năm gn đây, s phát trin vượt bc ca công ngh thông tin đã
làm tăng s lượng giao dch thông tin trên mng Internet mt cách đáng k đặc bit
là thư vin đin t, tin tc đin t.... Do đó mà s lượng văn bn xut hin trên
mng Internet cũng tăng theo vi mt tc độ chóng mt. Theo s lượng thng kê t
Broder et al (2003), lượng thông tin đó li tăng gp đôi sau t 9 đến 12 tháng, và tc
độ thay đổi thông tin là cc k nhanh chóng.
Vi lượng thông tin đồ s như vy, mt yêu cu ln đặt ra đối vi chúng ta là
làm sao t chc và tìm kiếm thông tin có hiu qu nht. Phân loi thông tin là mt
trong nhng gii pháp hp lý cho yêu cu trên. Nhưng mt thc tế là khi lượng
thông tin quá ln, vic phân loi d liu th công là điu không tưởng. Hướng gii
quyết là mt chương trình máy tính t động phân loi các thông tin trên.
Chúng em đã tp trung thc hin đề tài “Tìm hiu các hướng tiếp cn cho bài
toán phân loi văn bn và xây dng ng dng phân loi tin tc báo đin t
nhm tìm hiu và th nghim các phương pháp phân loi văn bn áp dng trên tiếng
Vit. Để thc hin vic phân loi, điu bt buc đối vi tiếng Vit đó là vic tách t.
Trong lun văn này, chúng em cũng tìm hiu mt s cách tách t tiếng Vit và th
nghim mt phương pháp tách t mi thích hp cho vic phân loi mà không dùng
bt k t đin hoc tp ng liu nào. Cui cùng, chúng em xây dng phn mm
phân loi văn bn tích hp vào trang web “Toà son báo đin t” (Lun văn khoá
2000 - Hoàng Minh Ngc Hi (0012545), Nguyn Duy Hip (0012038)) nhm phc
v cho vic phân loi tin tc báo đin t.
Hin nay, trang web ca khoa chúng ta vn chưa thc hin được vic phân loi
t động các tin tc ly v, do đó gây ra rt nhiu lãng phí v thi gian và công sc
ca nhà qun tr cũng như làm gii hn vic thu thp tin tc t nhiu ngun khác
nhau. ng dng phân loi tin tc báo đin t tích hp vi vic ly tin tc t động
ca chúng em hy vng s đem đến mt cách qun tr mi, nhanh chóng và hiu qu
hơn cách ly tin truyn thng. Ngoài ra, trong điu kin cn cp nht thông tin mt
iii
cách nhanh chóng như hin nay, phn mm phân loi văn bn t động ca chúng
em còn có kh năng ng dng cho nhiu loi trang báo đin t tiếng Vit khác.
Ni dung ca lun văn được trình bày bao gm 8 chương; trong đó, 3 chương
đầu trình bày các hướng tiếp cn cho phân loi văn bn và tách t tiếng Vit hin
nay; 2 chương tiếp theo trình bày hướng tiếp cn ca lun văn đối vi phân loi văn
bn và tách t tiếng Vit; 3 chương cui trình bày h thng th nghim văn bn,
ng dng vào phân loi tin tc bán t động, và cui cùng là đánh giá, kết lun quá
trình nghiên cu ca lun văn.
¾ Chương 1. Tng quan: gii thiu sơ lược v các phương pháp phân loi văn
bn và các hướng tiếp cn cho vic tách t tiếng Vit; đồng thi xác định
mc tiêu ca đề tài.
¾ Chương 2. Mt s phương pháp phân loi văn bn: gii thiu tóm tt mt
s phương pháp phân loi văn bn dành cho tiếng Anh.
¾ Chương 3. Phương pháp tách t tiếng Vit hin nay: trình bày tóm tt
mt s phương pháp tách t tiếng Vit hin nay, ưu đim và hn chế ca các
phương pháp đó.
¾ Chương 4. Phương Tách t Tiếng Vit không da trên tp ng liu
đánh du (annotated corpus) hay t đin (lexicon) – Mt thách thc:
trình bày phương pháp tách t tiếng Vit mi ch da vào vic thng kê t
Internet thông qua Google mà không cn bt k t đin hay tp ng liu nào.
¾ Chương 5. Bài toán phân loi tin tc báo đin t: trình bày hướng tiếp cn
cho bài toán phân loi tin tc báo đin t.
¾ Chương 6. H thng th nghim phân loi văn bn: gii thiu v h thng
th nghim các phương pháp tách t và phân loi văn bn do chúng em xây
dng. Ngoài ra, trong chương 6, chúng em trình bày v d liu dùng để th
nghim và các kết qu th nghim thu được.
¾ Chương 7. ng dng phân loi tin tc báo đin t bán t động: gii
thiu ng dng phân loi tin tc báo đin t do chúng em xây dng tích hp