Mét sè gi¶i ph¸ p cho bµi to¸ n t×m kiÕm trong CSDL Hypertext
1
Luận văn
Một số giải pháp cho bài
toán tìm kiếm trong CSDL
Hypertext
Mét sè gi¶i ph¸ p cho bµi t n t×m kiÕm trong CSDL Hypertext
2
PHẦN MỞ ĐẦU……………………………………………………………………………….2
CHƯƠNG I. TỔNG QUAN VỀ WEB-MINING ................................................................... 9
1.1 Giới thiệu về cơ sở dữ liệu Fulltext và Hypertext .................................................... 9
1.1.1 Cơ sở dữ liệu Fulltext ...................................................................................... 9
1.1.2 Cơ sở dữ liệu Hypertext .................................................................................12
1.1.3 So sánh đặc điểm của dữ liệu Fulltext và dliệu trang web ............................15
1.2 Tng quan về phương pháp biểu diễn văn bản trong cơ sở dữ liệu trang web..........16
1.2.1 Giới thiệu sơ bộ về các phương pháp biểu diễn trang web ..............................17
1.2.2 Cách tiếp cận theo web site ............................................................................19
Kết luận chương một .........................................................................................................29
CHƯƠNG II. MỘT SỐ PHƯƠNG PHÁP BIỂU DIỄN TRANG WEB VÀ GIẢI PHÁP KẾT
HỢP. .....................................................................................................................................30
2.1 Phương pháp biểu diễn trong các máy tìm kiếm .....................................................31
2.1.1 Cấu trúc cơ bản và hoạt động của một máy tìm kiếm ......................................32
2.1.2 Phương pháp biểu diễn dữ liệu trong các máy tìm kiếm ..................................35
2.2 Phương pháp biểu diễn trang web theo mô hình vector ...........................................46
2.2.1 Phương pháp biểu diễn vector ........................................................................46
2.2.2 Phương pháp biểu diễn trang web theo mô hình vector ...................................49
2.3 Đề xuất giải pháp biểu diễn vector trong máy tìm kiếm ..........................................56
Kết luận chương 2 .............................................................................................................61
CHƯƠNG III. MÁY TÌM KIẾM VIETSEEK VÀ TH NGHIỆM THUẬT TOÁN TÌM
KIẾM THEO NỘI DUNG .....................................................................................................63
3.1 Máy tìm kiếm VietSeek .........................................................................................63
3.1.1 Các đặc đim cơ bản của Vietseek ..................................................................63
3.1.2 Cơ sở dliệu của Vietseek .............................................................................64
3.2 Đề xuất thuật toán tìm kiếm mới cho máy tìm kiếm VietSeek ................................71
3.2.1 Những cơ sở để đề xuất thuật toán ..................................................................71
3.2.2 Thuật toán ......................................................................................................73
Kết luận chương 3 .............................................................................................................76
PHẦN KẾT LUẬN……………………………………………………………………………75
TÀI LIỆU THAM KHẢO…………………………………………………………………….77
Mét sè gi¶i ph¸ p cho bµi t n t×m kiÕm trong CSDL Hypertext
3
PHẦN MĐẦU
Trong nhng năm gần đây, trên s phát trin ng dng công ngh Internet,
khối lượng d liu trên máy tính đã tăng trưởng không ngng theo c hai phương diện
to mi thu thp. S m rng các d liu khoa hc v địa lý, địa chất, ktượng do
v tinh thu thp, s gii thiu qung mã vạch đối vi hu hết các sn phm thương
mi, vic tin hc hoá sâu rộng các thương vụ giao dch, s phát trin vic ng dng
CNTT trong qun hành chính nhà nước ... đã phát sinh ra mt khối lượng d liu
khng l. Mt khác, trong bi cnh nn tng cho mt hi thông tin, nhu cu nhn
được thông tin mt cách nhanh chóng, chính xác cũng như nhu cu thu nhận được "tri
thc" t khối lượng thông tin khng l nói trên đã tr nên cp thiết. Bi cảnh đó đã đòi
hi những phương pháp tiếp cn mới trong đó điển hình nhất các phương pháp
thuc lĩnh vực khai pd liu khám phá tri thức trong các s d liu [7,9]. S
tăng trưởng hàng năm về s lượng công trình được công b, v hi tho khoa hc quc
tế liên quan đến vic nghiên cu, gii quyết từng bước nhiều bài toán điển hình thuc
lĩnh vực này đã th hiện đầy đủ s phát triển vượt bc ca lĩnh vực nói trên. Các bài
toán biu din d liệu, lưu trữ d liu, m kiếm d liu, phân lp d liu, phân cm d
liu ... [2-4,6,8-14] là những bài toán đin hình nht.
Trong xu thế tăng trưởng không ngng ngun d liu, thông qua s phát trin ca
công ngh Web, dng d liu phi cu trúc na cấu trúc (điển hình h thng các
trang web trên Internet) càng tăng trưng theo tốc độ nhy vọt. Đây là dng d liu gn
nht với con người, qua chúng con người mong muốn lưu trữ thông tin, tri thc
hoc chuyn ti cho nhiều người khác. Trong những m gần đây WWW đã tr
thành mt kênh thông tin quan trng nht cho vic phân n các thông tin v nhân,
khoa học thương mại. Mt do ca vic WWW phát trin nhanh chóng gc
cho vic to xut bn các trang web rt r. So sánh với các phương pháp khác như
sn xut t rơi hay qung cáo trên báo tp chí thì trang web r hơn rất nhiu li
được cp nhật thường xuyên n đến hàng t người s dng, vì vy ngay c các
Mét sè gi¶i ph¸ p cho bµi t n t×m kiÕm trong CSDL Hypertext
4
công ty rt nh cũng có khả năng đưa các sản phm và dch v ca h lên WWW.n
na có rt nhiu các công ty hoạt động bán hàng trc tuyến trên Internet, vì vy mà nhu
cầu đưa các thông tin lên WWW hoàn toàn tự nhiên. Nhưng với việc tăng không
ngng các site thì vic tìm ra mt trang hay thm chí mt site mỗi cá nhân đang cần
li thc s là mt vấn đề ngày càng khó khăn.
Vic nghiên cứu các bài toán liên quan đến h thng các d liu dng này (biu
diễn văn bản, m kiếm và phân lớp văn bản) cùng vi việc đề xut nhng giải pháp đối
với các bài toán đó luôn nhng vn đề khoa hc và công ngh thi s [1-4,6,8-14].
Chng hn, vấn đề phát hin ra mt website mi thc s thú v cho người s dng
mt vấn đề chưa được quan tâm đúng mức. c h m kiếm trên Internet hiện nay như
Yahoo, Altavista, Google... nhng h triển khai để gii quyết bài toán m kiếm
được s dng khá ph biến hin nay. Tuy nhiên vn còn các vấn đề chưa thoả mãn
được nhu cu thc tế ca người s dụng. Đó là khi sử dng dch v m kiếm trên các
site này thì ch th tìm được các trang thông tin theo nhng điều kin tìm kiếm hết
sc giản đơn. Thêm vào đó, rất nhiều trường hp mc t không trn vẹn đôi
khi quá hn không được cp nhật thường xuyên. Hơn na các dch v tìm kiếm này
không cung cp tt c các lĩnh vực chuyên sâu hơn, nhất là các lĩnh vực hp cho mt s
người s dụng đặc bit. Các h này cũng chưa cho phép khai thác những thông tin truy
nhp của người s dng vậy không chế phn hồi thông tin để s dng kết qu
tìm kiếm trước đây vào lần tìm kiếm tiếp theo. chế này là cn thiết vì làm được n
vy hiu qu độ chính xác m kiếm chc chn được nâng cao. Mt vấn đ na
các h tìm kiếm này thường x các yêu cu tìm kiếm dưới dng các t khoá m
kiếm. Khi nhiều hơn một t khoá thì h tìm kiếm x các t khoá này theo cùng
mt ch thức không cơ chế cho phép người s dụng xác định đ quan trng
khác nhau cho các t khoá m kiếm. Cũng nvậy, các h tìm kiếm đin hình hin
nay chưa quan m đến vấn đề đng nghĩa đa nghĩa của t khóa, vy trong quá
trình tìm kiếm th đã b qua rt nhiu c kết qu m kiếm. Nhiu nghiên cu liên
Mét sè gi¶i ph¸ p cho bµi t n t×m kiÕm trong CSDL Hypertext
5
quan đã đề xut mt s phương pháp biểu din văn bản cho phép thi hành đưc nhng
khía cạnh đã đề cập trên đây [2-4,8-14].
T vic tìm hiểu phân tích ưu, nhược điểm của các phương pháp tiếp cn khác
nhau, da trên ý tưởng nâng cao hiu qu tìm kiếm, luận văn đề cp vic s dng
hình vector biu din trang web trong các y tìm kiếm để cho phép d dàng b sung
trng s cho các t khoá tìm kiếm và tăng cường được ng nghĩa nội dung văn bản vào
quá trình tìm kiếm.
Vi mục tiêu đề xut một phương pháp biểu din vector cho các trang web trong
các máy m kiếm để nâng cao hiu qu m kiếm, ni dung ca luận văn được đnh
hướng vào các vấn đề sau:
- Gii thiệu, phân tích đánh giá một s phương pháp biu diễn trang web đin
hình,
- Trên sở mt s phương pháp biểu din văn bản trang web theo mô nh
vector, luận văn nghiên cứu vic ci tiến các phương pháp biểu diễn đó để nhận được
một phương pháp mới biu din trang web,
- Nghiên cứu, đề xut vic b sung thêm biu din vector cho trang web trong các
máy m kiếm theo phương pháp mới, đồng thi b sung chức năng tìm kiếm trang
Web "theo ni dung" cho h tìm kiếm Vietseek.
Luận văn bao gồm Phn m đầu, ba chương nội dung và Phn kết lun ni
dung các chương được trình bày như dưới đây.
Chương 1 với tiêu đề là Tng quan v web-mining gii thiệu b nhng ni
dung tng quan nht v sở d liu Fulltext, sở d liệu Hypertext, sở d liu
trang web phương pháp biểu din vector. Trong chương này cách tiếp cn theo
website được trình bày kchi tiết v c khía cnh biu din website ln gii pháp cho
bài toán m kiếm theo website. Luận văn còn đề xut mt thut toán xây dng cây
website theo cách tiếp cn này.