
BỘ THÔNG TIN VÀ TRUYỀN THÔNG
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
CAO XUÂN TUẤN
NGHIÊN CỨU PHƢƠNG PHÁP TÌM KIẾM
TÀI LIỆU DỰA TRÊN CÔNG THỨC TOÁN
Chuyên ngành: Hệ thống thông tin
Mã số: 62.48.01.04
TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT
Hà Nội, 2017

Công trình hoàn thành tại:
Học viện Công nghệ Bưu chính Viễn thông
Người hướng dẫn khoa học:
1. PGS.TS Võ Trung Hùng
2. TS Nguyễn Mạnh Hùng
Phản biện 1:
Phản biện 2:
Phản biện 3:
Luận án được bảo vệ trước Hội đồng cấp Học viện
Họp tại số 122 Hoàng Quốc Việt, Hà Nội
Vào lúc:
Có thể tìm hiểu luận án tại:
Thư viện Học viện Công nghệ Bưu chính Viễn thông

1
MỞ ĐẦU
Trong những năm gần đây, cùng với sự phát triển mạnh mẽ của
mạng Internet và công nghệ Web là sự bùng nổ thông tin số. Số lượng
người sử dụng và lượng thông tin sản sinh ra trên mạng Internet gia
tăng rất nhanh và chúng ta có thể tìm thấy hầu hết thông tin cần thiết
khi có nhu cầu. Đặc biệt, lượng thông tin liên quan đến khoa học, phục
vụ học tập, nghiên cứu cũng gia tăng nhanh chóng và phong phú về
lĩnh vực. Các công cụ tìm kiếm phổ biến hiện nay như Google, Yahoo,
Bing… chỉ hỗ trợ mạnh việc tìm kiếm các dữ liệu dưới dạng văn bản
và hình ảnh, việc tìm kiếm các dữ liệu đặc biệt như các công thức toán
thì các công cụ này hầu như chưa thực hiện được.
Hiện nay, đã có nhiều công cụ cho phép soạn thảo và quản lý công
thức toán, nhưng việc tìm kiếm còn gặp nhiều khó khăn do chưa có
chuẩn chung về biểu diễn và lưu trữ. Vì thế, để tìm kiếm tài liệu dựa
trên công thức toán, chúng ta cần có một cơ chế thống nhất để mô tả,
lưu trữ và tìm kiếm theo ngữ nghĩa tương ứng với công thức đó.
Mục tiêu nghiên cứu
Mục tiêu tổng quát của đề tài là đề xuất được một mô hình hệ thống
cho phép biểu diễn, lưu trữ và tìm kiếm tài liệu dựa trên công thức toán
với nhiều nền tảng hệ thống khác nhau: máy đơn, mạng nội bộ, trên
Internet. Mục tiêu cụ thể như sau:
(1) Đề xuất một không gian biểu diễn và lưu trữ công thức toán
theo một cách thống nhất và có thể chuyển đổi dễ dàng từ nhiều
nguồn, nhiều công cụ soạn thảo và lưu trữ khác nhau.
(2) Trên cơ sở mô hình thống nhất cách biểu diễn và lưu trữ đó, đề
xuất phát triển một công cụ cho phép soạn thảo, tìm kiếm công thức
toán một cách thuận lợi trong các văn bản.

2
(3) Đề xuất các giải pháp để tìm kiếm các tài liệu dựa trên công
thức toán trên môi trường Internet bao gồm cả các Web thường và
Semantic Web (Web ngữ nghĩa).
Ý nghĩa và đóng góp
Về mặt khoa học, các nghiên cứu này cho phép mở ra các hướng
nghiên cứu mới về tiêu chuẩn lưu trữ, xử lý, khai thác các tài liệu
toán học trên các hệ thống máy tính và mạng máy tính khác nhau.
Đặc biệt, nghiên cứu xử lý các vấn đề phát sinh do các hệ điều hành,
phần mềm ứng dụng sử dụng các tiêu chuẩn mã hóa và lưu trữ khác
nhau. Ví dụ, để chuyển đổi một tài liệu nói chung hay một tài liệu
toán học nói riêng giữa các phần mềm soạn thảo như Microsoft
Word, OpenOffice, LaTeX,...
Về mặt thực tiễn, luận án đã đề xuất và thử nghiệm thành công các
công cụ cho phép soạn thảo, xử lý, tìm kiếm và chuyển đổi các tài liệu
toán học; đã triển khai ở mức thử nghiệm một Semantic Web cho các
tài liệu toán học và đã xây dựng một hệ thống tìm kiếm các tài liệu dựa
trên công thức toán (VNMathSearch). Những kết quả bước đầu này là
cơ sở quan trọng để có thể tiếp tục thực hiện những nghiên cứu mới
trong tương lai.
Những đóng góp chính của luận án có thể được tóm tắt trên các
điểm chính như sau: (1) Đề xuất được một không gian soạn thảo, lưu
trữ thống nhất các công thức toán và dễ dàng chuyển đổi định dạng
công thức sang các tiêu chuẩn lưu trữ khác nhau, (2) Đề xuất và thử
nghiệm thành công một hệ thống tìm kiếm tài liệu dựa trên công thức
toán (văn bản hoặc Web) dựa trên ba thành phần: bộ sưu tập dữ liệu
(crawler), lập chỉ mục (index) và tìm kiếm (search), (3) Đề xuất và
thử nghiệm thành công một hệ thống tìm kiếm các tài liệu toán học
dựa trên Semantic Web.

3
Bố cục của luận án
Luận án được trình bày thành 4 chương. Trong đó, chương 1 giới
thiệu tổng quan về tìm kiếm văn bản và công thức toán. Chương 2
trình bày những nghiên cứu về biểu diễn và lưu trữ công thức toán.
Chương 3 trình bày những giải pháp đề xuất về tìm kiếm tài liệu dựa
trên công thức toán và chương 4 là thử nghiệm, đánh giá những kết
quả nghiên cứu của chương 2 và chương 3.
CHƢƠNG 1: TỔNG QUAN VỀ TÌM KIẾM VĂN BẢN VÀ
CÔNG THỨC TOÁN
Chương này trình bày một số kết quả nghiên cứu tổng quan liên
quan đến đề tài gồm: những khái niệm về văn bản và hệ thống tìm
kiếm văn bản; các vấn đề đối với lưu trữ và tìm kiếm văn bản chứa
công thức toán; định hướng nghiên cứu của luận án.
1.1. Bài toán tìm kiếm văn bản
Một hệ thống tìm kiếm văn bản nói chung, thường có hai phần
khá tách biệt là: (i) Phần hệ thống quản lí, lưu trữ; và (ii) phần hệ
thống tìm kiếm như Hình 1.1.
Hình 1.1. Kiến trúc tổng quan hệ thống lƣu trữ và tìm kiếm văn bản

