B THÔNG TIN VÀ TRUYN THÔNG
HC VIN CÔNG NGH BƢU CHÍNH VIỄN THÔNG
CAO XUÂN TUN
NGHIÊN CU PHƢƠNG PHÁP TÌM KIM
TÀI LIU DA TRÊN CÔNG THC TOÁN
Chuyên ngành: H thng thông tin
Mã s: 62.48.01.04
TÓM TT LUN ÁN TIẾN SĨ KỸ THUT
Hà Ni, 2017
Công trình hoàn thành ti:
Hc vin Công ngh Bưu chính Viễn thông
Người hướng dn khoa hc:
1. PGS.TS Võ Trung Hùng
2. TS Nguyn Mnh Hùng
Phn bin 1:
Phn bin 2:
Phn bin 3:
Lun án đưc bo v trước Hội đồng cp Hc vin
Hp ti s 122 Hoàng Quc Vit, Hà Ni
Vào lúc:
Có th tìm hiu lun án ti:
Thư viện Hc vin Công ngh Bưu chính Viễn thông
1
M ĐẦU
Trong nhng năm gần đây, cùng với s phát trin mnh m ca
mng Internet và công ngh Web là s bùng n thông tin s. S ng
người s dng lượng thông tin sn sinh ra trên mng Internet gia
tăng rt nhanh chúng ta có th tìm thy hu hết thông tin cn thiết
khi có nhu cầu. Đc bit, lượng thông tin liên quan đến khoa hc, phc
v hc tp, nghiên cứu cũng gia tăng nhanh chóng phong phú về
lĩnh vc. Các công c tìm kiếm ph biến hin nay như Google, Yahoo,
Bingchỉ h tr mnh vic tìm kiếm các d liệu dưới dạng n bản
hình nh, vic tìm kiếm các d liệu đặc bit như các công thức toán
thìc công c này hầu như chưa thc hin đưc.
Hiện nay, đã có nhiều công c cho phép son tho và qun lý công
thức toán, nhưng việc tìm kiếm còn gp nhiều khó khăn do chưa
chun chung v biu diễn lưu trữ. thế, để tìm kiếm tài liu da
trên công thc toán, chúng ta cn mt chế thng nht để mô t,
lưu tr và tìm kiếm theo ng nghĩa tươngng vi công thức đó.
Mc tiêu nghiên cu
Mc tiêu tng quát ca đề tài là đề xuất đưc mt mô hình h thng
cho phép biu din, lưu trữ và tìm kiếm i liu da trên công thc toán
vi nhiu nn tng h thống khác nhau: máy đơn, mạng ni b, trên
Internet. Mc tiêu c th như sau:
(1) Đề xut mt không gian biu diễn lưu trữ công thc toán
theo mt ch thng nht th chuyển đổi d ng t nhiu
ngun, nhiu ng c son thảo và lưu tr khác nhau.
(2) Trên cơ sở mô hình thng nht cách biu diễn và lưu trữ đó, đề
xut phát trin mt công c cho phép son tho, tìm kiếm công thc
toán mt cách thun lợi trong các văn bn.
2
(3) Đề xut các gii pháp để tìm kiếm các tài liu da trên công
thc toán trên i trường Internet bao gm c các Web thường
Semantic Web (Web ng nghĩa).
Ý nghĩa đóng góp
V mt khoa hc, các nghiên cu này cho phép m ra các hướng
nghiên cu mi v tiêu chuẩn lưu trữ, x lý, khai thác các tài liu
toán hc trên các h thng máy tính mng máy tính khác nhau.
Đặc bit, nghiên cu x lý các vấn đề phát sinh do các h điều hành,
phn mm ng dng s dng các tiêu chuẩn hóa lưu tr khác
nhau. dụ, để chuyển đổi mt tài liu nói chung hay mt tài liu
toán hc i riêng gia các phn mm son thảo như Microsoft
Word, OpenOffice, LaTeX,...
V mt thc tin, luận án đã đề xut và th nghim thành công các
công c cho phép son tho, x, tìm kiếm và chuyn đổi các tài liu
toán học; đã triển khai mc th nghim mt Semantic Web cho các
tài liu toán hc và đã xây dựng mt h thng tìm kiếm các tài liu da
trên công thc toán (VNMathSearch). Nhng kết qu ớc đầu này
sở quan trọng để th tiếp tc thc hin nhng nghiên cu mi
trong tương lai.
Những đóng góp chính ca lun án th được tóm tt trên các
điểm chính như sau: (1) Đề xuất được mt không gian son thảo, lưu
tr thng nht các công thc toán d dàng chuyển đổi định dng
công thc sang các tiêu chuẩn lưu trữ khác nhau, (2) Đề xut th
nghim thành công mt h thng tìm kiếm tài liu da trên công thc
toán (văn bản hoc Web) da trên ba thành phn: b sưu tập d liu
(crawler), lp ch mc (index) tìm kiếm (search), (3) Đề xut
th nghim thành công mt h thng tìm kiếm các tài liu toán hc
da trên Semantic Web.
3
B cc ca lun án
Luận án được trình bày thành 4 chương. Trong đó, chương 1 giới
thiu tng quan v tìm kiếm văn bản công thức toán. Chương 2
trình bày nhng nghiên cu v biu diễn lưu trữ công thc toán.
Chương 3 trình bày những giải pháp đ xut v tìm kiếm tài liu da
trên công thức toán chương 4 thử nghiệm, đánh giá những kết
qu nghiên cu của chương 2 và chương 3.
CHƢƠNG 1: TỔNG QUAN V TÌM KIẾM VĂN BẢN
CÔNG THC TOÁN
Chương này trình bày một s kết qu nghiên cu tng quan liên
quan đến đề tài gm: nhng khái nim v văn bản h thng tìm
kiếm văn bản; các vấn đề đối với lưu trữ tìm kiếm văn bản cha
công thc toán; định hướng nghiên cu ca lun án.
1.1. i toán tìm kiếm văn bản
Mt h thng m kiếm văn bản nói chung, thường hai phn
khá tách bit là: (i) Phn h thng quản lí, lưu trữ; (ii) phn h
thng tìm kiếm như Hình 1.1.
Hình 1.1. Kiến trúc tổng quan hệ thống lƣu trữ và tìm kiếm văn bản