XUÂN CANH TÝ 2020
TP CHÍ KINH T - CÔNG NGHIP
THIT K VÀ XÂY DNG MÁY TÌM KIM NG NGHĨA
ĐỂ H TR CHO H THNG HỎI ĐÁP THÔNG MINH
TBT LONG AN
ThS. NGUYỄN MINH ĐẾ (*)
TÓM TT
Thiết kếphát trin h thng tìm kiếm ng nghĩa cho hệ thng hỏi đáp thông minh là một trong
các công vic thiết yếu cn phi thc hin liên tc vic ci tiến. Trong bài báo này thc hin vic
phân ch đề ngh mt thiết kế t tng th đến chi tiết cho h thng tìm kiếm nói trên. h thng tìm
kiếm ng nghĩa đây được áp dng chuyên bit cho h thng hỏi đáp thông minh, là mt máy tìm kiếm
ng nghĩa. Kiến trúc nn tng ca máy tìm kiếm ng nghĩa được thiết kế chuyên bit các thành
phn chính bên trong, gm 3 phn: a) Phn phân lp cho câu hi s da trên ch tiếp cn theo
hướng máy học (hướng tiếp cận này đều phù hp vi các h thng nh đến các h thng ln), c th áp
dng thut toán Support Vector Machines (SVM); b) Phn xây dựng sở d liu tri thc (ng nghĩa)
s được thc hin song song vi vic t các tài nguyên thông tin ng nghĩa (Ontology); c) Tìm
kiếm trên mng ng nghĩa.
T khóa: Tìm kiếm ng nghĩa; Máy tìm kiếm; Phân lp câu hi; Máy hc; Support Vector
Machines (SVM); Cơ sở d liu tri thc (ng nghĩa); Tài nguyên thông tin có ngữ nghĩa (Ontology).
SUMMARY
Design and develope Semantic Search System for Smart Answer-Question System[1] is one of
essential tasks and have to perform continuously improvements. In this article, we performed
analysises and proposed a design from the overall to the details for this Search System. Semantic
Search System is applied specially to Smart Answer-Question System[1], is Semantic Search Engine.
The fundamental architecture of Semantic Search Engine was specially designed and has the following
main components, consists of 3 components: a) Question Classification will be based Machine
Learning method (this approach is suitable with all systems from small to large), applying SVM
Algorithm; b) The construction of the knowledge database (Ontology) will performed in parallel with
the description of semantic information resources (Ontology); c) Searching on the semantic network.
Key words: Semantic Search; Search Engine; Question Classification; Machine Learning;
Support Vector Machines (SVM); Knowledge Database; Ontology.
1. M đầu
Đề tài Nghiên cu xây dng H hỏi đáp thông minh cho thông tin v Hàng rào K thut trong
Thương mại (TBT) ca tỉnh Long An” đề tài được t chc bi Trường Đi hc Kinh tế Công nghip
Long An, thuộc lĩnh vực K thut và Công ngh, có 3 mc tiêu:
Mục tiêu 1: Xây dựng cng thông tin đin t TBT tnh Long An qun lý trc tuyến và tp trung
các thông tin v hàng rào k thuật trong thương mại tnh Long An (gi tt cng thông tin
TBT Long An).
Mục tiêu 2: Thiết kế và xây dựng cơ sở d liu TBT Long An.
Mục tiêu 3: Nghiên cứu và xây dựng công cụ hỏi đáp thông minh TBT Long An.
Các công cụ hỏi đáp Mc tiêu 3 được chia ra làm các thành phn nh hơn được cu to t
các thành phn nh hơn đó tính chất ri rc. Các thành phn ri rc này mi quan h hữu
(*) Ging viên Trưng ĐH KTCN Long An
75
XUÂN CANH TÝ 2020
TP CHÍ KINH T - CÔNG NGHIP
vi nhau và có th thiết kế và phát trin riêng bit. Mt trong các thành phn quan trng là cn phi xây
dng h thng tìm kiếm (tìm kiếm theo ng nghĩa). Hệ tìm kiếm ng nghĩa này là một trong các nhim
v quan trng ca Mc tiêu 3 và có th phát trin qua các phiên bn khác nhau.
Mt h thng tìm kiếm ng nghĩa thường được xây dng da trên mt min và ngôn ng c th.
Cu trúc tng quát bên trong ca h thng tìm kiếm ng nghĩa thường được to thành t 2 thành phn
chính: Phân lp câu hỏi; Cơ sở d liu tri thc (ng nghĩa).
Để xây dng h thng tìm kiếm ng nghĩa ở đây thì cần phi thc hiện được 3 công vic chính:
o Công vic 1: Phân tích thiết kế cu trúc d liu để chun b d liu cho vic xây dng
sở d liu tri thc (mng ng nghĩa). Dữ liệu thô ban đầu cn phi x t chc li
mt cách có h thống để tr thành d liu vào có th s dụng được. Trong bài báo có trình
bày thiết kế cây Taxonomy và cấu trúc Ontology cho Cơ sở d liu tri thc.
o Công vic 2: Xây dng kiến trúc bn ca mt máy m kiếm để làm sở cho vic
thiết kế kiến trúc chung cho chương trình chuyên dụng ca Máy tìm kiếm ng nghĩa.
o Công vic 3: Thiết kế thut toán cho vic phân lp câu hi thc hin vic áp dng thut
toán SVM (Support Vector Machines) vào phân lp câu hỏi, đây thành phần quan trng
ca Máy tìm kiếm ng nghĩa.
Phn còn lại bài báo như sau: Phn 2, Xây dng mng ng nghĩa đ trình bày ni dung ca Công
vic 1; Phn 3, Thiết kế kiến trúc mng ng nghĩa để thc hin ni dung ca Công vic 2; Phn 4, Phân
lp câu truy vấn để thc hin vic trin khai ni dung Công vic 3; Phn 5, Kết quả, đánh giá kết
lun.
2. Xây dng Mng d liu ng nghĩa
2.1 Phân tích d liệu đầu vào
Xét mt bng theo khung HS, bng có cu trúc theo danh mc phân loại như sau:
Bng 1: Danh mc bng phân loi HS
Cu trúc bng phân loi ICS (và mt s khung/bng phân loại khác) cũng cấu trúc tương tự
như bảng phân loi HS trên, nên nhng phân tích và thiết kế đều s đưc áp dụng tương tự vi nhau.
Cu trúc ca ch s phân loại HS được trình bày c th trong [1]. Xét mt HS c th
1001.11.00, thì có: ch s quc tế là 1001.11; ch s riêng ca quc gia là 00. Mã HS quc tế gm 6 ch
s. Hai ch s đầu tiên ch định Chương HS. Hai chữ s tiếp th hai ch định Nhóm HS. Hai ch s th
Ký hiu
Tiếng Vit
01
Động vt sng
01.01
Nga, la, la
sng.
01.02
Động vt sng
h trâu bò.
....
....
97.06.00.00
Đồ c có tui
trên 100 năm.
Ch mc
0
1
2
...
Tng s
dòng -1
76
XUÂN CANH TÝ 2020
TP CHÍ KINH T - CÔNG NGHIP
ba ch phân nhóm HS. Xét ch s HS quc tế 1001.11 thì: chương 10 (Ngũ cốc); nhóm 01 (Lúa
meslin); phân nhóm 11 (Lúa mì Durum).
Tóm li, với HS 1001.11.00 thì nghĩa là: Thuộc phn II, các Sn phm thc vt; Chương
10, Ngũ cốc; nhóm 01, Lúa meslin; Phân nhóm 11, Lúa Durum; Phân nhóm ph riêng quc
gia 00, ht ging.
Như vậy, cu trúc ca tanh mc bng phân loại HS được gom nhóm li theo các phần như hình
sau:
Bng 2: Bng phân loại HS được phân thành các Phn
Ch
mc
Phn
Khong dãy
ký hiu
Tên tiếng Vit
Tên tiếng Anh
0
I
01-05
Động vt và các sn phm
t động vt
Animal & Animal
Products
1
II
06-15
Các sn phm thc vt
Vegetable Products
2
III
16-24
Các sn phm thc phm
Foodstuffs
3
IV
25-27
Các sn phm khoáng sn
Mineral Products
4
….
….
14
XV
90-97
Các sn phm còn li khác
Miscellaneous
Xét mt d liệu văn bản TBT (Đối tượng thông báo 1) trong .Đối tượng thông báo 1 cn phi
định nghĩa lại sao cho con người chương trình máy tính làm việc vi nhau hiu qu hơn. Dữ liu
được định nghĩa lại ngoài vic chứa thông tin (văn bản, hình ảnh, …) mà còn phải có cha các liên kết.
Các liên kết này cha nhiu loi liên kết khác nhau như: Đến tài nguyên khác; Nhiu loi quan h đưc
định nghĩa thêm; Các đặc điểm này s làm cho d liu cha thông tin nội dung được đa dạng
hơn, chi tiết hơn đầy đủ hơn. c thông tin trong d liu nh vào các mi liên kết quan h cht
ch vi nhau. S cht chy h tr cho vic tìm kiếm thông tin mnh m và hiu qu hơn.
2.2 Thiết kế cu trúc d liu
Xây dng cây cu trúc Taxonomy]
Danh mc bng phân loi HS s được xây dng thành mt cây Phân loi HS. Cây này mt
nút s nm gi mt danh sách T chứa các nút đỉnh. Danh sách T s có 15 phn t tương ứng như
Bng tóm tt danh mc phân loi HS hoc ICS.
Hnh 1: Cây Phân loi HS
Như vậy, biu thc truy cp phn t ca Cây Phân loi HS là: T[i] vi i = 0 ... 14. Mi mt T[i]
cha một nút đỉnh Top có cu trúc d liệu như sau và sẽ có mt giá tr c th:
Cây Phân loi
HS
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
77
XUÂN CANH TÝ 2020
TP CHÍ KINH T - CÔNG NGHIP
Giá tr đánh giá
V trí
Danh sách C, có cha các
nút con là Nút ni dung
Nút ni dung cha
Mi mt L[i] cha mt nút Ni dung có cu trúc d liu và có mt giá tr c th:
Mi mt C[i] nm trong mt nút Ni dung thì th cha các nút Ni dung khác mang ý
nghĩa là con của nó:
Hình 2: Tp hp cu trúc và tính giá tr các nút
Tóm li, hình nh ca cu trúc Cây Phân loi HS s như sau:
Hnh 1: Cu trúc Cây Phân loi HS
Xây dng Ontology cho mng ng nghĩa
Ontology: có nhiều định nghĩa về Ontology, đây sử dụng định nghĩa như ở dưới đây.
Mt Ontology: Là mt mô hình d liu biu din một lĩnh vực và được s dụng để suy lun vc
đối tượng trong lĩnh vực đó mối quan h gia chúng; Cung cp b t vng các thuc tính, ràng
buc. Mt Ontology mô t:
Các cá thể, Individuals: Các đối tượng cơ bản, nn tng
Các lp, Classes: Các tp hp, hay kiu của các đối tượng
Giá tr đánh giá
V trí
Danh sách C, có cha các
nút con là Nút ni dung
Nút ni dung
Ký hiu
Tiếng Vit
Tiếng Anh
Giá tr đánh giá
Danh sách L, có cha
các nút Ni dung
Nút đỉnh
01-05
Động vt và các sn phm t động vt
Animal & Animal Products
5
L[i] vi i = 0 .. 4
Nút đỉnh đầu tiên T[0]
5
0
C[]
Nút nội dung đầu tiên ca
một nút đỉnh T[i]
7
1
C[]
Nút ni dung con
78
XUÂN CANH TÝ 2020
TP CHÍ KINH T - CÔNG NGHIP
Các thuc tính, Properties: Thuộc tính, tính năng, đặc điểm, tính cách, hay các thông s các
đối tượng có và có th đem ra chia sẻ.
Các mi liên hệ, Relations: Các con đường (liên kết) mà các đối tượng có th liên h ti một đối
ng khác.
B t vựng Ontology đưc xây dựng trên s tng ca RDF RDFS [10], cung cp kh năng
biu din ng nghĩa và có khả năng hỗ tr lp lun.
Thiết kế cu trúc d liu (Ontology):
Xét Đối tượng thông báo 1, nếu xem Mã ký hiu là một định danh thì có th xây dựng được cu
trúc sau:
Hnh 2: Ví d d liu ng nghĩa (mt Ontology)
Hình trên t v 1 d liu TBT ng nghĩa, chứa thông tin ca một văn bản TBT ca
Sa và các sn phm sa chế biến” do Bộ Y tế của nước Vit Nam ban hành. D liu có cấu trúc như
một đồ th có hướng mang trng s, mỗi đỉnh trong đồ tht thông tin hoc chính d liu ng nghĩa
khác. Các cnh của đồ th th hin mt kiu liên kết (thuc tính ca d liu).
Mi tài nguyên (d liu ng nghĩa) trong mng ng nghĩa một đối tượng. Các đối tượng đều
có: Tên gi; Thuc tính; Giá tr ca thuc tính; Mi liên kết;…. Trước tiên cn phi xây dng từng đơn
v d liu ng nghĩa (đối tượng), sau đó xây dựng mng liên kết lại các đối tượng với nhau (đối tượng
th lồng vào nhau đưc), gi mng ng nghĩa. Mạng y s được chia s rng khp cho các h
thng khác s dng li, nên cn phi xây dng vi quy cách thng nht. Ontology s được s dụng để
mô t d liệu (đối tượng/tài nguyên mng) cho mng ng nghĩa.
Cu trúc chung cho mt Ontology d liệu như sau:
Lớp (classes): Văn bản; Quốc gia; Cơ quan/tổ chức; ….
Cá thể (individuals): Văn bản G/TBT/N/VNM/78; Quốc gia Việt Nam; cơ quan (Bộ Y tế);….
Thuộc tính (Attributes): một thuộc tính thuộc Ontology 2 phần: Tên thuộc tính; Giá trị
tương ứng.
dụ thể tên n bản G/TBT/N/VNM/78 các thuộc tính: số
(G/TBT/N/VNM/78); Hiệu lực (có); Thời gian (10 November 2015); Tiêu đề (Thực phẩm); …
Quan hệ (Relation): một quan hệ được hình thành khi một giá trị của một thuộc tính nào đó
nằm trong một thể khác. nhiều mối quan hệ: Xếp gộp (subsumption); Xem một
cây phân cấp; Lớp cha (is_superclass_of); Là (is_a); Lớp con (is_subclass_of); …
79