1
B GIÁO DC VÀ ĐÀO TO
TRƯỜNG ĐẠI HC BÁCH KHOA HÀ NI
---------------------------------------
ĐỖ QUANG VINH
NGHIÊN CU CÁC PHƯƠNG PHÁP CH S HOÁ
VÀ TÌM KIM THÔNG TIN VĂN BN
NG DNG TRONG THƯ VIN S
Chuyên ngành: Đảm bo toán hc cho máy tính
và h thng tính toán
Mã s: 1.01.10
TÓM TT LUN ÁN TIN S TOÁN HC
HÀ NI - 2006
2
Công trình được hoàn thành ti:
Trường Đại hc Bách khoa Hà Ni
Người hướng dn khoa hc:
1.TS. QUÁCH TUN NGC
2. PGS. PHƯƠNG XUÂN NHÀN
Phn bin 1: PGS.TS. H THUN
Vin Công ngh Thông tin
Phn bin 2: PGS.TS. ĐỖ TRUNG TUN
Đại hc Quc gia Hà Ni
Phn bin 3: TSKH. NGUYN MINH HI
Hc vin Công ngh Bưu chính Vin thông
Lun án s được bo v trước Hi đồng chm lun án cp nhà
nước hp ti: Trường Đại hc Bách khoa Hà Ni
vào hi gi ngày tháng năm 2006.
Có th tìm hiu lun án ti thư vin:
1. Thư vin Quc gia Vit Nam.
2. Thư vin Trường Đại hc Bách khoa Hà Ni.
3
M ĐẦU
1. NHIM V VÀ PHƯƠNG PHÁP NGHIÊN CU
Tính cp thiết, ý nghĩa lý thuyết và thc tin ca đề tài
Ngày nay, World Wide Web đã xâm nhp vào cuc sng
hàng ngày, đồng thi, qua mt s năm giao din cho Web tiến
trin t duyt đến tìm kiếm. Hàng triu người trên thế gii thc
hin tìm kiếm Web hàng ngày, nhưng công ngh tìm kiếm cơ s
d liu tài liu ln ít thay đổi t nhng năm 1980. S nhn thc
chung v Net to ra mt cuc cách mng mi v công ngh tìm
kiếm thông tin trong thư vin s (DL), din ra theo cuc cách
mng phn cng máy tính cá nhân.
Hin nay, DL là mt trong nhng hướng nghiên cu chính
v công ngh thông tin trên thế gii.
Nhim v ca lun án: Nghiên cu các phương pháp ch
s hoá và tìm kiếm thông tin văn bn ng dng trong thư vin
s.
Các phương pháp nghiên cu: H cơ s d liu
Multimedia; các phương pháp ch mc; các phương pháp mã
hoá; các phương pháp nén d liu; các phương pháp tìm kiếm
thông tin; các phương pháp xác sut và thng kê toán hc.
2. CU TRÚC LUN ÁN
Phn m đầu: trình bày nhim v, đối tượng, phương
pháp nghiên cu và tóm tt các đóng góp chính ca lun án.
Chương 1 trình bày tng quan v thư vin s, đề xut mt
mô hình hình thc cho thư vin s da vào đại s hin đại.
Chương 2 trình bày hai phương pháp chính ch mc tài
liu văn bn trong thư vin s, phân tích chi tiết phương pháp
ch mc tp đảo IFID, các mô hình nén toàn cc và mô hình nén
4
cc b hyperbol IFID, đề xut mô hình nén cc b Bernoulli và
nén ni suy IFID.
Chương 3 trình bày mô hình tìm kiếm thông tin kinh đin:
mô hình truy vn Boole BQ, đề xut mt mô hình truy vn xếp
hng tài liu RQ trong thư vin s, đánh giá hiu sut tìm kiếm
da vào hai tham s: độ chính xác P và độ phc hi R.
Chương 4 trình bày các gii thut kinh đin: đảo da vào
b nh, đảo da vào sp xếp, đề xut các gii thut trn nhiu
đường ti ch da vào sp xếp và gii thut phân chia da vào
văn bn, so sánh các gii thut đảo, trình bày bài toán ch mc
CSDL động.
Phn kết lun: trình bày các kết lun ca lun án và các
hướng nghiên cu tiếp theo.
CHƯƠNG 1 - TNG QUAN V THƯ VIN S
1.1 M ĐẦU
Định nghĩa 1.1 (Arms W.Y.) [31]: Thư vin s là mt kho
thông tin có t chc vi các dch v liên kết, trong đó thông tin
được lưu tr dng s và có th truy cp qua mt mng.
Định nghĩa 1.2 (Chen H., Houston A.L.) [43]: Thư vin s
mt thc th liên quan ti s to ra các ngun tin và s hot
động thông tin qua các mng toàn cu. DL là mt kho thông tin
s có t chc.
Định nghĩa 1.3 (Reddy R., Wladawsky-Berger I.) [121]: Thư
vin s là các kho d liu mng v tài liu văn bn s, nh, âm
thanh, d liu khoa hc và phn mm là lõi ca Internet hin
nay và các kho d liu s có th truy cp ph biến v tt c tri
thc ca loài người trong tương lai.
5
Định nghĩa 1.4 (Sun Microsystems) [135]: Thư vin s là s
m rng đin t v các chc năng đin hình NSD thc hin và
các tài nguyên NSD truy cp trong thư vin truyn thng. Các
tài nguyên thông tin được chuyn thành dng s, lưu tr trong
các kho multimedia và làm cho sn có thông qua các dch v
Web.
Định nghĩa 1.5 (Witten I.H., Bainbridge D.) [154]: Thư vin
s là các kho đối tượng s, bao gm văn bn, video và audio
cùng vi các phương pháp truy cp và tìm kiếm, la chn, t
chc và bo trì.
Tóm li, thư vin s là mt kho thông tin s khng l có t
chc vi các dch v liên kết qua mng.
1.2 CÁC KHÁI NIM CƠ BN
Tác gi trình bày các khái nim cơ bn trong DL: Cơ s d
liu tài liu, máy tính và mng.
1.3 NGHIÊN CU TIN HC TRONG THƯ VIN S
Tác gi trình bày các ch đề nghiên cu tin hc chính trong
DL: Mô hình đối tượng, giao din người s dng, tìm kiếm
thông tin, qun tr và bo trì CSDL, tính liên tác.
1.4 MÔ HÌNH HÌNH THC CHO THƯ VIN S
1.4.1 Cơ s toán hc
Tác gi xét cơ s toán hc cn thiết để phát trin mô hình
hình thc cho DL. Các khái nim bao gm tp hp, quan h,
hàm, dãy, b, xâu, đồ th và văn phm [1], [3], [4], [7], [8], [9],
[13], [144], [147], [150].
1.4.2 Dòng
Định nghĩa 1.14: Mt dòng là mt dãy có min giá tr là mt
tp không rng.