Thut toán phân lp văn bn Web và thc nghim trong máy tìm kiếm VietSeek
Khóa lun tt nghip đại hc Đặng Thanh Hi
1
LI CM ƠN
Em xin bày t lòng kính trng và biết ơn sâu sc ti thy giáo tiến sĩ
Quang Thy và thy Nguyn Trí Thành, khoa Công ngh, ĐHQG Hà ni đã hướng
dn và động viên em rt nhiu trong quá trình làm lun văn.
Em xin cm ơn các Thy Cô trong khoa Công ngh, Đại hc Quc Gia
Ni, và nhóm Xemina "Máy tìm kiếm VietSeek" thuc b môn Các H thng Thông tin,
khoa Công ngh, nhng người đã giúp đỡ cho em trong sut quá trình hc tp và
nghiên cu.
Cui cùng, em xin bày t lòng biết ơn ti gia đình và các bn bè đã giúp đỡ,
động viên em rt nhiu trong sut quá trình hc tp.
Hà Ni ngày 28/05/2003
Sinh viên
Đặng Thanh Hi
Thut toán phân lp văn bn Web và thc nghim trong máy tìm kiếm VietSeek
Khóa lun tt nghip đại hc Đặng Thanh Hi
2
TÓM TT NI DUNG
Do kích thước khng l ca d liu Web, vic xây dng cũng như tích hp các
yếu t khai phá d liu Web vào công c tìm kiếm trên mng Internet đang thu hút
được s quan tâm rt ln ca rt nhiu nhà nghiên cu. Khóa lun đề cp ti vn đề
ci tiến cht lượng và tc độ ca máy tìm kiếm bng vic nghiên cu bài toán phân lp
trong máy tìm kiếm.
Ni dung chính ca khóa lun trình bày cu trúc cũng như mô hình hot động
ca modul đánh ch mc trong máy tìm kiếm VietSeek, các k thut cơ bn và các
thut toán thông dng liên quan đến quá trình khai phá d liu Web trong máy tìm
kiếm, mà c th là bài toán phân lp trang văn bn Web. Đặc bit khóa lun tp trung
vào gii pháp phân lp theo phương pháp Bayes th nht. Xut phát t công thc (3.8)
[1], khóa lun đề xut các công thc (3.15), (3.16) và chng minh tính đúng đắn ca
chúng, vi gi thiết v tính độc lp ca các biến c. Đi kèm vi gii pháp phân lp
Bayes là các đề xut nhm gii quyết vn đề tính ngưỡng cho các lp.
Khóa lun đã tích hp thành công các đề xut này vào máy tìm kiếm VietSeek
và thu được kết qu rt kh quan.
Thut toán phân lp văn bn Web và thc nghim trong máy tìm kiếm VietSeek
Khóa lun tt nghip đại hc Đặng Thanh Hi
3
PHN M ĐẦU
Ngày nay s phát trin vượt bc ca công ngh thông tin, đặc bit là s ra đời
và phát trin như vũ bão ca mng Internet đã to ra mt cuc cách mng trong mi
lĩnh vc đời sng xã hi. Có th nói rng Internet là mt thế gii o vi vô vàn các
thông tin v mi mt ca đời sng kinh tế, chính tr, xã hi được trình bày dưới dng
văn bn, hình nh, âm thanh,...
Internet luôn biến đổi không ngng c v kích thước ln ni dung. Đến nay
không có mt ai biết được chính xác kích thước ca Internet là bao nhiêu, có bao
nhiêu Website và bao nhiêu trang Web. Bên cnh đó, thông tin trong chính các trang
Web cũng được cp nht liên tc. Theo kết qu nghiên cu , hơn 500.000 trang Web
trong hơn 4 tháng thì 23% các trang thay đổi hàng ngày, và khong hơn 10 ngày thì
50% các trang trong tên min đó biến mt, nghĩa là địa ch URL ca nó không còn tn
ti na [2].
Mt điu thc tế là khi lượng d liu tăng lên gp nhiu ln, nhưng t l các
thông tin có ích so vi khi lượng d liu đó li gim đi rt nhiu. Theo thng kê, 99%
ca thông tin Web là vô ích vi 99% người dùng Web [2]. Rõ ràng vi mt khi lượng
khng l d liu được lưu tr trên Internet thì vn đề tìm kiếm thông tin có ích đang
tr thành mt vn đề nghiên cu có tính thi s cao. Người dùng không th t tìm
kiếm địa ch trang Web cha thông tin mà mình cn, do vy đòi hi cn phi có mt
trình tin ích qun lý ni dung ca các trang Web và cho phép tìm thy các địa ch
trang Web có ni dung ging vi yêu cu ca người tìm kiếm. Hin nay, trên thế gii
có mt s máy tìm kiếm thông dng như Yahoo, Google, Alvista,...đã được xây dng
và trin khai nhm đáp ng nhu cu tìm kiếm thông tin ca người dùng.
Mc dù đã đáp ng ng được phn ln nhu cu tìm kiếm thông tin ca người
dùng, tuy nhiên hu hết các máy hin nay mi ch h tr vic tìm kiếm theo t khóa,
mà chưa xét đến vn đề ng nghĩa ca các t cn tìm kiếm. Vi vic tìm kiếm bng
cách đối sánh các t khóa, kết qu tìm kiếm có th không bao gm tt c các tài liu
như ý mun ca người dùng (do vn đề t đồng nghĩa). Thm chí các tài liu tìm thy
có th không liên quan đến yêu cu ca người dùng (do vn đề t đa nghĩa).
Mc khác các máy tìm kiếm thông dng hin nay đều chưa có chc năng lưu
tr và phân tích tiu s ca người dùng, để t đó có kh năng h tr tt hơn vi tng
lp người dùng. C th, gi s chúng ta có các trang Web v các vn đề Tin hc, Th
thao, Kinh t-Xã hi Xây dng...Căn c vào ni dung ca các tài liu mà khách
Thut toán phân lp văn bn Web và thc nghim trong máy tìm kiếm VietSeek
Khóa lun tt nghip đại hc Đặng Thanh Hi
4
hàng xem hoc ti v, sau khi phân lp chúng ta s biết khách hàng hay tp trung vào
ni dung gì, t đó chúng ta s b sung thêm nhiu các tài liu v các ni dung mà
khách hàng quan tâm.
T nhng nhu cu thc tế trên, phân lp và tìm kiếm trang Web vn là bài
toán hay, có tính thi s cao, cn được phát trin và nghiên cu hin nay.
Đề tài khóa lun tt nghip ‘Thut toán phân lp văn bn Web và thc
nghim trong máy tìm kiếm VietSeek (Vinahoo)’ cũng không nm ngoài mc đích
trên.
Ngoài phn m đầu và phn kết lun, ni dung ca khóa lun được t chc
thành 4 chương vi ni dung chính như sau:
Chương 1, vi tên gi Máy tìm kiếm VietSeek, nhm mc đích gii thiu mt
cách chi tiết cu trúc cũng như cơ chế hot động ca các máy tìm kiếm VietSeek.
Ngoài ra, phn đầu ca chương còn gii thiu tng quát v cu trúc chung ca các máy
tìm kiếm đang được s dng rng rãi hin nay.
Chương 2 có tên gi là Khai phá d liu Web trong máy tìm kiếm. Ni dung
chính ca chương trình bày các k thut cơ bn liên quan dến bài toán khai phá d liu
Web trong máy tìm kiếm.
Chương 3, tích hp gii pháp phân lp trang văn bn vào máy tìm kiếm
VietSeek, gii thiu các thut toán đin hình được áp dng để gii quyết bài toán phân
lp văn bn. Trong đó đặc bit tp trung vào gii pháp phân lp theo phương pháp
Bayes th nht. Các công thc đề xut (3.15) và (3.16), cùng vi quá trình chng minh
tính đúng đắn ca chúng đưc trình bày mt cách chi tiết trong chương này. Đi kèm
vi gii pháp phân lp Bayes là các đề xut nhm gii quyết vn đềnh ngưỡng cho
các lp. Phn cui ca chương gii thiu quá trình tích hp gii pháp phân lp trang
văn bn vào máy tìm kiếm VietSeek.
Chương 4 vi ta đề Kết qa thc nghim và đánh giá s gii thiu các kết
qu thc nghim thu đưc khi tiến hành tích hp gii pháp phân lp văn bn Web vào
máy tìm kiếm VietSeek. Sau đó đưa ra các đánh giá v các công thc đề xut da trên
kết qu thc nghim.
Thut toán phân lp văn bn Web và thc nghim trong máy tìm kiếm VietSeek
Khóa lun tt nghip đại hc Đặng Thanh Hi
5
Chương 1. MÁY TÌM KIM VIETSEEK
1.1. Gii thiu máy tìm kiếm VietSeek
Hin nay, trên thế gii có mt s máy tìm kiếm thông dng như Yahoo,
Google, Alvista,...đã được xây dng và trin khai nhm đáp ng nhu cu tìm kiếm
thông tin ngày càng ln ca người dùng.
Máy tìm kiếm là mt h thng được xây dng có kh năng tiếp nhn các yêu
cu tìm kiếm t phía người dùng (thường là mt tp các t khoá), phân tích ni dung
câu truy vn và tiến hành tìm kiếm trong cơ s d liu đã được xây dng sn t trước.
Kết qu tr v cho người s dng bi máy tìm kiếm là tp hp các trang Web liên
quan hoc có cha các t khóa xut hin trong câu truy vn.
Đối vi các máy tìm kiếm, vn đề biu din d liu là rt quan trng. Biu
din các trang Web như thế nào để va có kh năng lưu tr được mt s lượng khng
l các trang Web, va cho phép máy tìm kiếm thc hin vic tìm kiếm nhanh chóng
và chính xác.
Cu trúc đin hình ca mt máy tìm kiếm được mô t như trong hình (1.0 )
Trong thc tế thì mi máy tìm kiếm li có các sa đổi riêng theo cách riêng, tuy nhiên
v cơ bn vn da trên các b phn được mô t trong hình (1.0 )
Kho trang web
Bé t×m
duyÖt
Hình 1.0. Mô hình cu trúc hot động ca máy tìm kiếm