ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KHOA HỌC
NGUYỄN VĂN TRUNG
MỘT SỐ PHƯƠNG PHÁP
XỬ LÝ TRI THỨC KHÔNG NHẤT QUÁN
TRONG ONTOLOGY
CHUYÊN NGÀNH: KHOA HỌC Y TÍNH
SỐ: 62.48.01.01
LUẬN ÁN TIẾN KHOA HỌC Y TÍNH
HUẾ - NĂM 2018
Công trình y được hoàn thành tại:
Trường Đại học Khoa học - Đại học Huế
Người hướng dẫn khoa học:
PGS. TS. Hoàng Hữu Hạnh, Ban Hợp tác quốc tế, Đại học Huế
Phản biện 1: ......................................................................................
......................................................................................
Phản biện 2: ......................................................................................
......................................................................................
Phản biện 3: ......................................................................................
.......................................................................................
Luận án sẽ được bảo v tại Hội đồng chấm luận án cấp Đại học Huế
họp tại Đại học Huế vào lúc ...... giờ ..... ngày ..... tháng ..... năm 2017
thể tìm hiểu luận án tại thư viện:
Thư viện Quốc gia Việt Nam
Thư viện Trường Đại học Khoa học, Đại học Huế
MỞ ĐU
1. Tính cấp thiết của đề tài
Năm 2001, Tim Berners Lee cùng cộng sự đã đưa ra phác thảo cho một “dạng thức
mới v nội dung web dạng thức y ý nghĩa đối với y tính”. Thế hệ web sử
dụng dạng thức nội dung y, gọi Web ngữ nghĩa, cho phép y tính thể “hiểu”
tri thức được lưu trữ, theo đó thể chia sẻ và tái sử dụng các sở tri thức trong
các hệ thống thông tin thuộc nhiều lĩnh vực khác nhau. So với Web hiện tại một
kho tài liệu được liên kết với nhau, Web ngữ nghĩa một nền tảng dữ liệu trong
đó thông tin được lưu dạng định nghĩa tường minh, cho phép y tính và con người
thể làm việc được cùng nhau.
Web ngữ nghĩa một lĩnh vực nghiên cứu đang phát triển nhanh và nhận được
sự quan tâm của cộng đồng nghiên cứu trong thập niên vừa qua. Công nghệ Web ngữ
nghĩa đang được áp dụng vào nhiều lĩnh vực khác nhau trong thực tế. Thành phần
quan trọng trong các ứng dụng web ngữ nghĩa ontology.
Trong một ontology người ta định nghĩa các thực thể (bao gồm khái niệm, thuộc
tính, thể) và mối quan hệ giữa các thực thể y theo ngữ nghĩa được quy định
tường minh bởi một ngôn ngữ logic xác định. Ngôn ngữ ontology được sử dụng phổ
biến và chuẩn hoá bởi tổ chức tiêu chuẩn quốc tế W3C (World Wide Web Consortium)
OWL. Phiên bản mới nhất của ngôn ngữ y OWL 2 (được giới thiệu vào năm
2009) dựa trên logic tả SROIQ(D).
Vấn đề quan trọng của Web ngữ nghĩa phải xử tri thức không nhất quán trong
các ontology. Điều y bắt nguồn từ chính đặc điểm y dựng và sử dụng ontology
trong các ứng dụng Web ngữ nghĩa: Đặc tính thể mở rộng, thể chia sẻ, tái sử
dụng, phân tán và đa người dùng luôn tiềm ẩn khả năng làm xuất hiện tri thức không
nhất quán trong các ontology.
Trên thực tế, nếu một ontology không nhất quán, các truy vấn trên không
có nghĩa. Điều y bởi bất kỳ tiên đề nào cũng hệ quả logic của một ontology
không nhất quán. Nói cách khác, sự không nhất quán làm mất đi ý nghĩa sử dụng của
ontology trong các ứng dụng Web ngữ nghĩa. Chính vy, xử tri thức không nhất
quán trong ontology bài toán quan trọng, ý nghĩa thực tiễn và được cộng đồng
khoa học y tính quan tâm nghiên cứu.
2. Động lực nghiên cứu và cách tiếp cận nghiên cứu của luận án
Các phương pháp xử tri thức không nhất quán trong ontology thể được phân
làm hai nhóm: (1)nhóm phương pháp chấp nhận tồn tại tri thức không nhất quán
trong ontology, và (2) nhóm phương pháp tìm cách loại bỏ tri thức không nhất quán
khỏi ontology:
(1) Các giải pháp thuộc nhóm thứ nhất chấp nhận tồn tại tri thức không nhất
quán trong ontology. Một số tiếp cận thuộc nhóm này định nghĩa các logic tả với
ngữ nghĩa nửa nhất quán và y dựng ontology dựa trên các logic đó. Việc sử dụng
logic với ngữ nghĩa nửa nhất quán để y dựng ontology, mặc tạo ra được hình
biểu diễn tri thức toàn diện nhưng lại khó triển khai trong thực tế do tính phổ biến
của các ngôn ngữ ontology đã được chuẩn hoá và khuyến nghị sử dụng bởi tổ chức
W3C.
1
Trong rất nhiều trường hợp thực tế, các ứng dụng Web ngữ nghĩa cần truy vấn
thông tin được tổng hợp từ các ontology đến từ nhiều nguồn khác nhau (và thể
không nhất quán) không được phép chỉnh sửa hay tạo mới ontology. Một giải pháp
cho vấn đề y khung lập luận với ontology không nhất quán sử dụng chiến lược
phát triển tuyến tính tập tiên đề diễn giải, được đề xuất bởi nhóm tác giả Zhisheng
Huang, Frank van Harmelen và cộng sự. Khung lập luận y tìm câu tr lời có nghĩa
cho truy vấn với ontology không nhất quán bằng cách chọn ra một tập con gồm các
tiên đề nhất quán từ ontology đầu vào gọi tập tiên đề diễn giải truy vấn: tập tiên
đề y liên quan với truy vấn theo một tiêu c cụ thể cho trước và thể trả lời
được truy vấn. Phần quan trọng nhất của khung lập luận với ontology không nhất
quán hàm chọn để y dựng tập tiên đề diễn giải truy vấn. Hai hàm chọn điển hình
được nhóm tác giả phát triển hàm chọn dựa trên sự liên quan pháp và hàm chọn
dựa trên khoảng cách ngữ nghĩa theo y tìm kiếm Google. Hai hàm chọn y đều
nhược điểm phụ thuộc vào pháp của tiên đề. Khắc phục nhược điểm y chính
một động lực nghiên cứu của luận án: Luận án đề xuất y dựng tập tiên đề diễn
giải theo độ liên quan ngữ nghĩa giữa các tiên đề với truy vấn đầu vào. Độ liên quan
y được xác định dựa trên khoảng cách ngữ nghĩa giữa các biểu thức khái niệm khi
đặt chúng trên y phân cấp khái niệm của một ontology gọi ontology tham chiếu.
(2) Các giải pháp thuộc nhóm thứ hai tìm cách loại b tri thức không nhất quán
thông qua việc y dựng mới ontology từ một hoặc nhiều ontology đầu vào. Việc tạo
mới ontology như vy diễn ra theo hai chiến lược: chiến lược thứ nhất, tìm, đề xuất
chỉnh sửa hoặc loại b một số tiên đề y nên sự không nhất quán khỏi ontology; và
chiến lược thứ hai, áp dụng thuyết đồng thuận để y dựng tập tiên đề hợp nhất
(theo một tiêu chuẩn xác định trước) thể đại diện cho các ontology đầu vào. Chiến
lược thứ nhất thường được sử dụng để duy trì sự nhất quán của một ontology, trong
khi chiến lược thứ hai thường được sử dụng để xử xung đột trong quá trình tích
hợp ontology đến từ nhiều nguồn phân tán, độc lập nhau.
Các công trình xử tri thức không nhất quán dựa trên thuyết đồng thuận được
tác giả Nguyễn Ngọc Thành đề xuất vào năm 2002 và cùng với các cộng sự mở rộng
trong những năm tiếp theo. Tác giả và cộng sự đã phân loại xung đột trong quá trình
tích hợp ontology theo các mức (mức khái niệm, mức quan hệ, mức thể) và đề xuất
phương pháp để xử xung đột theo các mức y.
Trong bài toán xử xung đột mức khái niệm, cấu trúc khái niệm được xét theo
hai khía cạnh: tập thuộc tính tả khái niệm và miền giá trị của thuộc tính. Tuy vy,
các nghiên cứu xử xung đột mức khái niệm trong quá trình tích hợp ontology hiện
nay chỉ tập trung y dựng danh sách thuộc tính của khái niệm cần tích hợp. Miền
giá trị của các thuộc tính chỉ được xác định bằng cách lấy hợp của các miền giá trị
thành phần. Điều y nghĩa xung đột v miền giá trị của thuộc tính chưa được
xét đến. Luận án sẽ áp dụng hình tổng quát tích hợp tri thức theo phương pháp
đồng thuận và đề xuất phương án xử xung đột mức khái niệm trong quá trình tích
hợp ontology, trong đó xét đến cả hai khía cạnh: danh sách thuộc tính và miền giá
trị của thuộc tính.
Một mức xung đột khác cũng thể xảy ra trong quá trình tích hợp ontology đó
xung đột mức tiên đề, theo đó, tập tiên đề của các ontology tham gia tích hợp
sai khác nhau hoặc thậm c mâu thuẫn nhau. Tình huống y cũng thể thường
xuyên xảy ra trong quá trình y dựng ontology theo kiểu phân tán, cộng tác, đa
2
người dùng trong đó, một ontology thể được y dựng bởi nhiều người dùng tự
nguyện thông qua một wiki ngữ nghĩa hoặc bởi các chuyên gia được thuê. Xung đột
mức tiên đề trong quá trình tích hợp ontology hiện vẫn bài toán chưa giải pháp
tốt và thuyết phục như các mức khái niệm, quan hệ hay thể. Bằng cách biểu diễn
một tiên đề dưới dạng một literal, mỗi ontology thành phần thể được biểu diễn
dưới dạng hội của các literal đó. Như vy, bài toán xử xung đột tập tiên đề thể
được dẫn v bài toán xử xung đột cấp độ pháp của các công thức hội. Luận án
sẽ y dựng khoảng cách giữa hai công thức hội, phân tích các tiêu chuẩn cho công
thức hội đồng thuận và đề xuất phương án tìm công thức hội đồng thuận. Kết quả
y thể áp dụng cho bài toán xử xung đột mức tiên đề.
3. Mục tiêu, đối ợng và phạm vi nghiên cứu của luận án
Đối tượng nghiên cứu của luận án ontology, tri thức không nhất quán trong
ontology, và các phương pháp xử tri thức không nhất quán trong ontology. Trên
sở phân tích các động lực nghiên cứu, luận án xác định mục tiêu xử tri thức không
nhất quán trong ontology theo hai tác vụ truy vấn và tích hợp. Mục tiêu nghiên cứu
cụ thể của luận án được giới hạn theo ba bài toán sau đây:
Bài toán thứ nhất: Xác định câu trả lời nghĩa khi truy vấn với ontology không
nhất quán. Trong bài toán y, luận án nghiên cứu đề xuất phương pháp sử dụng
ontology tham chiếu để tính khoảng cách ngữ nghĩa giữa hai khái niệm, giữa hai
biểu thức khái niệm, giữa hai tiên đề. Khoảng cách ngữ nghĩa y sẽ được dùng
để y dựng hàm chọn của khung lập luận với ontology không nhất quán.
Bài toán thứ hai: Xử xung đột mức khái niệm trong quá trình tích hợp ontology.
Luận án sẽ áp dụng hình tổng quát tích hợp tri thức theo phương pháp đồng
thuậnđể tìm đồng thuận cho cấu trúc khái niệm. Sự không nhất quán trong cấu
trúc khái niệm sẽ được giải quyết cả danh sách thuộc tính và miền giá trị của
các thuộc tính.
Bài toán thứ ba: Xử xung đột mức tiên đề trong quá trình tích hợp ontology.
Trên sở biểu diễn xung đột mức tiên đề trong quá trình tích hợp ontology dưới
dạng xung đột v pháp, luận án đánh giá độ sai khác của các tập tiên đề và
y dựng phương pháp tìm tập tiên đề đồng thuận theo các tiêu chuẩn dựa trên
độ sai khác y.
Chương 1
TỔNG QUAN VỀ XỬ LÝ TRI THỨC KHÔNG NHẤT
QUÁN TRONG ONTOLOGY
1.1. Ontology và tri thức không nhất quán
Định nghĩa 1.1 (Ontology).Một ontology một b bốn hC,I,R,Zi, trong đó: C
tập hợp các khái niệm (các lớp); I tập hợp các thể của các khái niệm; R
tập hợp các quan hệ; Z tập hợp các tiên đề biểu diễn các ràng buộc toàn vẹn dùng
để tả các thực thể (khái niệm, thể, quan hệ).
3