
ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KHOA HỌC
NGUYỄN VĂN TRUNG
MỘT SỐ PHƯƠNG PHÁP
XỬ LÝ TRI THỨC KHÔNG NHẤT QUÁN
TRONG ONTOLOGY
CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ: 62.48.01.01
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
HUẾ - NĂM 2018

Công trình này được hoàn thành tại:
Trường Đại học Khoa học - Đại học Huế
Người hướng dẫn khoa học:
PGS. TS. Hoàng Hữu Hạnh, Ban Hợp tác quốc tế, Đại học Huế
Phản biện 1: ......................................................................................
......................................................................................
Phản biện 2: ......................................................................................
......................................................................................
Phản biện 3: ......................................................................................
.......................................................................................
Luận án sẽ được bảo vệ tại Hội đồng chấm luận án cấp Đại học Huế
họp tại Đại học Huế vào lúc ...... giờ ..... ngày ..... tháng ..... năm 2017
Có thể tìm hiểu luận án tại thư viện:
•Thư viện Quốc gia Việt Nam
•Thư viện Trường Đại học Khoa học, Đại học Huế

MỞ ĐẦU
1. Tính cấp thiết của đề tài
Năm 2001, Tim Berners Lee cùng cộng sự đã đưa ra phác thảo cho một “dạng thức
mới về nội dung web mà dạng thức này có ý nghĩa đối với máy tính”. Thế hệ web sử
dụng dạng thức nội dung này, gọi là Web ngữ nghĩa, cho phép máy tính có thể “hiểu”
tri thức được lưu trữ, theo đó có thể chia sẻ và tái sử dụng các cơ sở tri thức trong
các hệ thống thông tin thuộc nhiều lĩnh vực khác nhau. So với Web hiện tại – là một
kho tài liệu được liên kết với nhau, Web ngữ nghĩa là một nền tảng dữ liệu mà trong
đó thông tin được lưu ở dạng định nghĩa tường minh, cho phép máy tính và con người
có thể làm việc được cùng nhau.
Web ngữ nghĩa là một lĩnh vực nghiên cứu đang phát triển nhanh và nhận được
sự quan tâm của cộng đồng nghiên cứu trong thập niên vừa qua. Công nghệ Web ngữ
nghĩa đang được áp dụng vào nhiều lĩnh vực khác nhau trong thực tế. Thành phần
quan trọng trong các ứng dụng web ngữ nghĩa là ontology.
Trong một ontology người ta định nghĩa các thực thể (bao gồm khái niệm, thuộc
tính, cá thể) và mối quan hệ giữa các thực thể này theo ngữ nghĩa được quy định
tường minh bởi một ngôn ngữ logic xác định. Ngôn ngữ ontology được sử dụng phổ
biến và chuẩn hoá bởi tổ chức tiêu chuẩn quốc tế W3C (World Wide Web Consortium)
là OWL. Phiên bản mới nhất của ngôn ngữ này là OWL 2 (được giới thiệu vào năm
2009) dựa trên logic mô tả SROIQ(D).
Vấn đề quan trọng của Web ngữ nghĩa là phải xử lý tri thức không nhất quán trong
các ontology. Điều này bắt nguồn từ chính đặc điểm xây dựng và sử dụng ontology
trong các ứng dụng Web ngữ nghĩa: Đặc tính có thể mở rộng, có thể chia sẻ, tái sử
dụng, phân tán và đa người dùng luôn tiềm ẩn khả năng làm xuất hiện tri thức không
nhất quán trong các ontology.
Trên thực tế, nếu một ontology là không nhất quán, các truy vấn trên nó là không
có nghĩa. Điều này là bởi bất kỳ tiên đề nào cũng là hệ quả logic của một ontology
không nhất quán. Nói cách khác, sự không nhất quán làm mất đi ý nghĩa sử dụng của
ontology trong các ứng dụng Web ngữ nghĩa. Chính vì vậy, xử lý tri thức không nhất
quán trong ontology là bài toán quan trọng, có ý nghĩa thực tiễn và được cộng đồng
khoa học máy tính quan tâm nghiên cứu.
2. Động lực nghiên cứu và cách tiếp cận nghiên cứu của luận án
Các phương pháp xử lý tri thức không nhất quán trong ontology có thể được phân
làm hai nhóm: (1)nhóm phương pháp chấp nhận tồn tại tri thức không nhất quán
trong ontology, và (2) nhóm phương pháp tìm cách loại bỏ tri thức không nhất quán
khỏi ontology:
(1) Các giải pháp thuộc nhóm thứ nhất – chấp nhận tồn tại tri thức không nhất
quán trong ontology. Một số tiếp cận thuộc nhóm này định nghĩa các logic mô tả với
ngữ nghĩa nửa nhất quán và xây dựng ontology dựa trên các logic đó. Việc sử dụng
logic với ngữ nghĩa nửa nhất quán để xây dựng ontology, mặc dù tạo ra được mô hình
biểu diễn tri thức toàn diện nhưng lại khó triển khai trong thực tế do tính phổ biến
của các ngôn ngữ ontology đã được chuẩn hoá và khuyến nghị sử dụng bởi tổ chức
W3C.
1

Trong rất nhiều trường hợp thực tế, các ứng dụng Web ngữ nghĩa cần truy vấn
thông tin được tổng hợp từ các ontology đến từ nhiều nguồn khác nhau (và có thể
không nhất quán) mà không được phép chỉnh sửa hay tạo mới ontology. Một giải pháp
cho vấn đề này là khung lập luận với ontology không nhất quán sử dụng chiến lược
phát triển tuyến tính tập tiên đề diễn giải, được đề xuất bởi nhóm tác giả Zhisheng
Huang, Frank van Harmelen và cộng sự. Khung lập luận này tìm câu trả lời có nghĩa
cho truy vấn với ontology không nhất quán bằng cách chọn ra một tập con gồm các
tiên đề nhất quán từ ontology đầu vào – gọi là tập tiên đề diễn giải truy vấn: tập tiên
đề này có liên quan với truy vấn theo một tiêu chí cụ thể cho trước và có thể trả lời
được truy vấn. Phần quan trọng nhất của khung lập luận với ontology không nhất
quán là hàm chọn để xây dựng tập tiên đề diễn giải truy vấn. Hai hàm chọn điển hình
được nhóm tác giả phát triển là hàm chọn dựa trên sự liên quan cú pháp và hàm chọn
dựa trên khoảng cách ngữ nghĩa theo máy tìm kiếm Google. Hai hàm chọn này đều có
nhược điểm là phụ thuộc vào cú pháp của tiên đề. Khắc phục nhược điểm này chính
là một động lực nghiên cứu của luận án: Luận án đề xuất xây dựng tập tiên đề diễn
giải theo độ liên quan ngữ nghĩa giữa các tiên đề với truy vấn đầu vào. Độ liên quan
này được xác định dựa trên khoảng cách ngữ nghĩa giữa các biểu thức khái niệm khi
đặt chúng trên cây phân cấp khái niệm của một ontology gọi là ontology tham chiếu.
(2) Các giải pháp thuộc nhóm thứ hai – tìm cách loại bỏ tri thức không nhất quán
thông qua việc xây dựng mới ontology từ một hoặc nhiều ontology đầu vào. Việc tạo
mới ontology như vậy diễn ra theo hai chiến lược: chiến lược thứ nhất, dò tìm, đề xuất
chỉnh sửa hoặc loại bỏ một số tiên đề gây nên sự không nhất quán khỏi ontology; và
chiến lược thứ hai, áp dụng lý thuyết đồng thuận để xây dựng tập tiên đề hợp lý nhất
(theo một tiêu chuẩn xác định trước) có thể đại diện cho các ontology đầu vào. Chiến
lược thứ nhất thường được sử dụng để duy trì sự nhất quán của một ontology, trong
khi chiến lược thứ hai thường được sử dụng để xử lý xung đột trong quá trình tích
hợp ontology đến từ nhiều nguồn phân tán, độc lập nhau.
Các công trình xử lý tri thức không nhất quán dựa trên lý thuyết đồng thuận được
tác giả Nguyễn Ngọc Thành đề xuất vào năm 2002 và cùng với các cộng sự mở rộng
trong những năm tiếp theo. Tác giả và cộng sự đã phân loại xung đột trong quá trình
tích hợp ontology theo các mức (mức khái niệm, mức quan hệ, mức cá thể) và đề xuất
phương pháp để xử lý xung đột theo các mức này.
Trong bài toán xử lý xung đột mức khái niệm, cấu trúc khái niệm được xét theo
hai khía cạnh: tập thuộc tính mô tả khái niệm và miền giá trị của thuộc tính. Tuy vậy,
các nghiên cứu xử lý xung đột mức khái niệm trong quá trình tích hợp ontology hiện
nay chỉ tập trung xây dựng danh sách thuộc tính của khái niệm cần tích hợp. Miền
giá trị của các thuộc tính chỉ được xác định bằng cách lấy hợp của các miền giá trị
thành phần. Điều này có nghĩa xung đột về miền giá trị của thuộc tính là chưa được
xét đến. Luận án sẽ áp dụng mô hình tổng quát tích hợp tri thức theo phương pháp
đồng thuận và đề xuất phương án xử lý xung đột mức khái niệm trong quá trình tích
hợp ontology, trong đó có xét đến cả hai khía cạnh: danh sách thuộc tính và miền giá
trị của thuộc tính.
Một mức xung đột khác cũng có thể xảy ra trong quá trình tích hợp ontology đó
là xung đột mức tiên đề, theo đó, tập tiên đề của các ontology tham gia tích hợp là
có sai khác nhau hoặc thậm chí mâu thuẫn nhau. Tình huống này cũng có thể thường
xuyên xảy ra trong quá trình xây dựng ontology theo kiểu phân tán, cộng tác, đa
2

người dùng mà trong đó, một ontology có thể được xây dựng bởi nhiều người dùng tự
nguyện thông qua một wiki ngữ nghĩa hoặc bởi các chuyên gia được thuê. Xung đột
mức tiên đề trong quá trình tích hợp ontology hiện vẫn là bài toán chưa có giải pháp
tốt và thuyết phục như các mức khái niệm, quan hệ hay cá thể. Bằng cách biểu diễn
một tiên đề dưới dạng một literal, mỗi ontology thành phần có thể được biểu diễn
dưới dạng hội của các literal đó. Như vậy, bài toán xử lý xung đột tập tiên đề có thể
được dẫn về bài toán xử lý xung đột ở cấp độ cú pháp của các công thức hội. Luận án
sẽ xây dựng khoảng cách giữa hai công thức hội, phân tích các tiêu chuẩn cho công
thức hội đồng thuận và đề xuất phương án tìm công thức hội đồng thuận. Kết quả
này có thể áp dụng cho bài toán xử lý xung đột mức tiên đề.
3. Mục tiêu, đối tượng và phạm vi nghiên cứu của luận án
Đối tượng nghiên cứu của luận án là ontology, tri thức không nhất quán trong
ontology, và các phương pháp xử lý tri thức không nhất quán trong ontology. Trên cơ
sở phân tích các động lực nghiên cứu, luận án xác định mục tiêu xử lý tri thức không
nhất quán trong ontology theo hai tác vụ truy vấn và tích hợp. Mục tiêu nghiên cứu
cụ thể của luận án được giới hạn theo ba bài toán sau đây:
•Bài toán thứ nhất: Xác định câu trả lời có nghĩa khi truy vấn với ontology không
nhất quán. Trong bài toán này, luận án nghiên cứu đề xuất phương pháp sử dụng
ontology tham chiếu để tính khoảng cách ngữ nghĩa giữa hai khái niệm, giữa hai
biểu thức khái niệm, giữa hai tiên đề. Khoảng cách ngữ nghĩa này sẽ được dùng
để xây dựng hàm chọn của khung lập luận với ontology không nhất quán.
•Bài toán thứ hai: Xử lý xung đột mức khái niệm trong quá trình tích hợp ontology.
Luận án sẽ áp dụng mô hình tổng quát tích hợp tri thức theo phương pháp đồng
thuậnđể tìm đồng thuận cho cấu trúc khái niệm. Sự không nhất quán trong cấu
trúc khái niệm sẽ được giải quyết ở cả danh sách thuộc tính và miền giá trị của
các thuộc tính.
•Bài toán thứ ba: Xử lý xung đột mức tiên đề trong quá trình tích hợp ontology.
Trên cơ sở biểu diễn xung đột mức tiên đề trong quá trình tích hợp ontology dưới
dạng xung đột về cú pháp, luận án đánh giá độ sai khác của các tập tiên đề và
xây dựng phương pháp tìm tập tiên đề đồng thuận theo các tiêu chuẩn dựa trên
độ sai khác này.
Chương 1
TỔNG QUAN VỀ XỬ LÝ TRI THỨC KHÔNG NHẤT
QUÁN TRONG ONTOLOGY
1.1. Ontology và tri thức không nhất quán
Định nghĩa 1.1 (Ontology).Một ontology là một bộ bốn hC,I,R,Zi, trong đó: C
là tập hợp các khái niệm (các lớp); Ilà tập hợp các cá thể của các khái niệm; Rlà
tập hợp các quan hệ; Zlà tập hợp các tiên đề biểu diễn các ràng buộc toàn vẹn dùng
để mô tả các thực thể (khái niệm, cá thể, quan hệ).
3