ĐẠI HỌC HUẾ<br />
TRƯỜNG ĐẠI HỌC KHOA HỌC<br />
<br />
NGUYỄN VĂN TRUNG<br />
<br />
MỘT SỐ PHƯƠNG PHÁP<br />
XỬ LÝ TRI THỨC KHÔNG NHẤT QUÁN<br />
TRONG ONTOLOGY<br />
<br />
CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH<br />
MÃ SỐ: 62.48.01.01<br />
<br />
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH<br />
<br />
HUẾ - NĂM 2018<br />
<br />
Công trình này được hoàn thành tại:<br />
Trường Đại học Khoa học - Đại học Huế<br />
<br />
Người hướng dẫn khoa học:<br />
PGS. TS. Hoàng Hữu Hạnh, Ban Hợp tác quốc tế, Đại học Huế<br />
<br />
Phản biện 1: ......................................................................................<br />
......................................................................................<br />
Phản biện 2: ......................................................................................<br />
......................................................................................<br />
Phản biện 3: ......................................................................................<br />
.......................................................................................<br />
<br />
Luận án sẽ được bảo vệ tại Hội đồng chấm luận án cấp Đại học Huế<br />
họp tại Đại học Huế vào lúc ...... giờ ..... ngày ..... tháng ..... năm 2017<br />
<br />
Có thể tìm hiểu luận án tại thư viện:<br />
<br />
• Thư viện Quốc gia Việt Nam<br />
• Thư viện Trường Đại học Khoa học, Đại học Huế<br />
<br />
MỞ ĐẦU<br />
1. Tính cấp thiết của đề tài<br />
<br />
Năm 2001, Tim Berners Lee cùng cộng sự đã đưa ra phác thảo cho một “dạng thức<br />
mới về nội dung web mà dạng thức này có ý nghĩa đối với máy tính”. Thế hệ web sử<br />
dụng dạng thức nội dung này, gọi là Web ngữ nghĩa, cho phép máy tính có thể “hiểu”<br />
tri thức được lưu trữ, theo đó có thể chia sẻ và tái sử dụng các cơ sở tri thức trong<br />
các hệ thống thông tin thuộc nhiều lĩnh vực khác nhau. So với Web hiện tại – là một<br />
kho tài liệu được liên kết với nhau, Web ngữ nghĩa là một nền tảng dữ liệu mà trong<br />
đó thông tin được lưu ở dạng định nghĩa tường minh, cho phép máy tính và con người<br />
có thể làm việc được cùng nhau.<br />
Web ngữ nghĩa là một lĩnh vực nghiên cứu đang phát triển nhanh và nhận được<br />
sự quan tâm của cộng đồng nghiên cứu trong thập niên vừa qua. Công nghệ Web ngữ<br />
nghĩa đang được áp dụng vào nhiều lĩnh vực khác nhau trong thực tế. Thành phần<br />
quan trọng trong các ứng dụng web ngữ nghĩa là ontology.<br />
Trong một ontology người ta định nghĩa các thực thể (bao gồm khái niệm, thuộc<br />
tính, cá thể) và mối quan hệ giữa các thực thể này theo ngữ nghĩa được quy định<br />
tường minh bởi một ngôn ngữ logic xác định. Ngôn ngữ ontology được sử dụng phổ<br />
biến và chuẩn hoá bởi tổ chức tiêu chuẩn quốc tế W3C (World Wide Web Consortium)<br />
là OWL. Phiên bản mới nhất của ngôn ngữ này là OWL 2 (được giới thiệu vào năm<br />
2009) dựa trên logic mô tả SROIQ(D).<br />
Vấn đề quan trọng của Web ngữ nghĩa là phải xử lý tri thức không nhất quán trong<br />
các ontology. Điều này bắt nguồn từ chính đặc điểm xây dựng và sử dụng ontology<br />
trong các ứng dụng Web ngữ nghĩa: Đặc tính có thể mở rộng, có thể chia sẻ, tái sử<br />
dụng, phân tán và đa người dùng luôn tiềm ẩn khả năng làm xuất hiện tri thức không<br />
nhất quán trong các ontology.<br />
Trên thực tế, nếu một ontology là không nhất quán, các truy vấn trên nó là không<br />
có nghĩa. Điều này là bởi bất kỳ tiên đề nào cũng là hệ quả logic của một ontology<br />
không nhất quán. Nói cách khác, sự không nhất quán làm mất đi ý nghĩa sử dụng của<br />
ontology trong các ứng dụng Web ngữ nghĩa. Chính vì vậy, xử lý tri thức không nhất<br />
quán trong ontology là bài toán quan trọng, có ý nghĩa thực tiễn và được cộng đồng<br />
khoa học máy tính quan tâm nghiên cứu.<br />
2. Động lực nghiên cứu và cách tiếp cận nghiên cứu của luận án<br />
<br />
Các phương pháp xử lý tri thức không nhất quán trong ontology có thể được phân<br />
làm hai nhóm: (1) nhóm phương pháp chấp nhận tồn tại tri thức không nhất quán<br />
trong ontology, và (2) nhóm phương pháp tìm cách loại bỏ tri thức không nhất quán<br />
khỏi ontology:<br />
(1) Các giải pháp thuộc nhóm thứ nhất – chấp nhận tồn tại tri thức không nhất<br />
quán trong ontology. Một số tiếp cận thuộc nhóm này định nghĩa các logic mô tả với<br />
ngữ nghĩa nửa nhất quán và xây dựng ontology dựa trên các logic đó. Việc sử dụng<br />
logic với ngữ nghĩa nửa nhất quán để xây dựng ontology, mặc dù tạo ra được mô hình<br />
biểu diễn tri thức toàn diện nhưng lại khó triển khai trong thực tế do tính phổ biến<br />
của các ngôn ngữ ontology đã được chuẩn hoá và khuyến nghị sử dụng bởi tổ chức<br />
W3C.<br />
1<br />
<br />
Trong rất nhiều trường hợp thực tế, các ứng dụng Web ngữ nghĩa cần truy vấn<br />
thông tin được tổng hợp từ các ontology đến từ nhiều nguồn khác nhau (và có thể<br />
không nhất quán) mà không được phép chỉnh sửa hay tạo mới ontology. Một giải pháp<br />
cho vấn đề này là khung lập luận với ontology không nhất quán sử dụng chiến lược<br />
phát triển tuyến tính tập tiên đề diễn giải, được đề xuất bởi nhóm tác giả Zhisheng<br />
Huang, Frank van Harmelen và cộng sự. Khung lập luận này tìm câu trả lời có nghĩa<br />
cho truy vấn với ontology không nhất quán bằng cách chọn ra một tập con gồm các<br />
tiên đề nhất quán từ ontology đầu vào – gọi là tập tiên đề diễn giải truy vấn: tập tiên<br />
đề này có liên quan với truy vấn theo một tiêu chí cụ thể cho trước và có thể trả lời<br />
được truy vấn. Phần quan trọng nhất của khung lập luận với ontology không nhất<br />
quán là hàm chọn để xây dựng tập tiên đề diễn giải truy vấn. Hai hàm chọn điển hình<br />
được nhóm tác giả phát triển là hàm chọn dựa trên sự liên quan cú pháp và hàm chọn<br />
dựa trên khoảng cách ngữ nghĩa theo máy tìm kiếm Google. Hai hàm chọn này đều có<br />
nhược điểm là phụ thuộc vào cú pháp của tiên đề. Khắc phục nhược điểm này chính<br />
là một động lực nghiên cứu của luận án: Luận án đề xuất xây dựng tập tiên đề diễn<br />
giải theo độ liên quan ngữ nghĩa giữa các tiên đề với truy vấn đầu vào. Độ liên quan<br />
này được xác định dựa trên khoảng cách ngữ nghĩa giữa các biểu thức khái niệm khi<br />
đặt chúng trên cây phân cấp khái niệm của một ontology gọi là ontology tham chiếu.<br />
(2) Các giải pháp thuộc nhóm thứ hai – tìm cách loại bỏ tri thức không nhất quán<br />
thông qua việc xây dựng mới ontology từ một hoặc nhiều ontology đầu vào. Việc tạo<br />
mới ontology như vậy diễn ra theo hai chiến lược: chiến lược thứ nhất, dò tìm, đề xuất<br />
chỉnh sửa hoặc loại bỏ một số tiên đề gây nên sự không nhất quán khỏi ontology; và<br />
chiến lược thứ hai, áp dụng lý thuyết đồng thuận để xây dựng tập tiên đề hợp lý nhất<br />
(theo một tiêu chuẩn xác định trước) có thể đại diện cho các ontology đầu vào. Chiến<br />
lược thứ nhất thường được sử dụng để duy trì sự nhất quán của một ontology, trong<br />
khi chiến lược thứ hai thường được sử dụng để xử lý xung đột trong quá trình tích<br />
hợp ontology đến từ nhiều nguồn phân tán, độc lập nhau.<br />
Các công trình xử lý tri thức không nhất quán dựa trên lý thuyết đồng thuận được<br />
tác giả Nguyễn Ngọc Thành đề xuất vào năm 2002 và cùng với các cộng sự mở rộng<br />
trong những năm tiếp theo. Tác giả và cộng sự đã phân loại xung đột trong quá trình<br />
tích hợp ontology theo các mức (mức khái niệm, mức quan hệ, mức cá thể) và đề xuất<br />
phương pháp để xử lý xung đột theo các mức này.<br />
Trong bài toán xử lý xung đột mức khái niệm, cấu trúc khái niệm được xét theo<br />
hai khía cạnh: tập thuộc tính mô tả khái niệm và miền giá trị của thuộc tính. Tuy vậy,<br />
các nghiên cứu xử lý xung đột mức khái niệm trong quá trình tích hợp ontology hiện<br />
nay chỉ tập trung xây dựng danh sách thuộc tính của khái niệm cần tích hợp. Miền<br />
giá trị của các thuộc tính chỉ được xác định bằng cách lấy hợp của các miền giá trị<br />
thành phần. Điều này có nghĩa xung đột về miền giá trị của thuộc tính là chưa được<br />
xét đến. Luận án sẽ áp dụng mô hình tổng quát tích hợp tri thức theo phương pháp<br />
đồng thuận và đề xuất phương án xử lý xung đột mức khái niệm trong quá trình tích<br />
hợp ontology, trong đó có xét đến cả hai khía cạnh: danh sách thuộc tính và miền giá<br />
trị của thuộc tính.<br />
Một mức xung đột khác cũng có thể xảy ra trong quá trình tích hợp ontology đó<br />
là xung đột mức tiên đề, theo đó, tập tiên đề của các ontology tham gia tích hợp là<br />
có sai khác nhau hoặc thậm chí mâu thuẫn nhau. Tình huống này cũng có thể thường<br />
xuyên xảy ra trong quá trình xây dựng ontology theo kiểu phân tán, cộng tác, đa<br />
2<br />
<br />
người dùng mà trong đó, một ontology có thể được xây dựng bởi nhiều người dùng tự<br />
nguyện thông qua một wiki ngữ nghĩa hoặc bởi các chuyên gia được thuê. Xung đột<br />
mức tiên đề trong quá trình tích hợp ontology hiện vẫn là bài toán chưa có giải pháp<br />
tốt và thuyết phục như các mức khái niệm, quan hệ hay cá thể. Bằng cách biểu diễn<br />
một tiên đề dưới dạng một literal , mỗi ontology thành phần có thể được biểu diễn<br />
dưới dạng hội của các literal đó. Như vậy, bài toán xử lý xung đột tập tiên đề có thể<br />
được dẫn về bài toán xử lý xung đột ở cấp độ cú pháp của các công thức hội. Luận án<br />
sẽ xây dựng khoảng cách giữa hai công thức hội, phân tích các tiêu chuẩn cho công<br />
thức hội đồng thuận và đề xuất phương án tìm công thức hội đồng thuận. Kết quả<br />
này có thể áp dụng cho bài toán xử lý xung đột mức tiên đề.<br />
3. Mục tiêu, đối tượng và phạm vi nghiên cứu của luận án<br />
<br />
Đối tượng nghiên cứu của luận án là ontology, tri thức không nhất quán trong<br />
ontology, và các phương pháp xử lý tri thức không nhất quán trong ontology. Trên cơ<br />
sở phân tích các động lực nghiên cứu, luận án xác định mục tiêu xử lý tri thức không<br />
nhất quán trong ontology theo hai tác vụ truy vấn và tích hợp. Mục tiêu nghiên cứu<br />
cụ thể của luận án được giới hạn theo ba bài toán sau đây:<br />
<br />
• Bài toán thứ nhất: Xác định câu trả lời có nghĩa khi truy vấn với ontology không<br />
nhất quán. Trong bài toán này, luận án nghiên cứu đề xuất phương pháp sử dụng<br />
ontology tham chiếu để tính khoảng cách ngữ nghĩa giữa hai khái niệm, giữa hai<br />
biểu thức khái niệm, giữa hai tiên đề. Khoảng cách ngữ nghĩa này sẽ được dùng<br />
để xây dựng hàm chọn của khung lập luận với ontology không nhất quán.<br />
<br />
• Bài toán thứ hai: Xử lý xung đột mức khái niệm trong quá trình tích hợp ontology.<br />
Luận án sẽ áp dụng mô hình tổng quát tích hợp tri thức theo phương pháp đồng<br />
thuậnđể tìm đồng thuận cho cấu trúc khái niệm. Sự không nhất quán trong cấu<br />
trúc khái niệm sẽ được giải quyết ở cả danh sách thuộc tính và miền giá trị của<br />
các thuộc tính.<br />
<br />
• Bài toán thứ ba: Xử lý xung đột mức tiên đề trong quá trình tích hợp ontology.<br />
Trên cơ sở biểu diễn xung đột mức tiên đề trong quá trình tích hợp ontology dưới<br />
dạng xung đột về cú pháp, luận án đánh giá độ sai khác của các tập tiên đề và<br />
xây dựng phương pháp tìm tập tiên đề đồng thuận theo các tiêu chuẩn dựa trên<br />
độ sai khác này.<br />
<br />
Chương 1<br />
TỔNG QUAN VỀ XỬ LÝ TRI THỨC KHÔNG NHẤT<br />
QUÁN TRONG ONTOLOGY<br />
1.1. Ontology và tri thức không nhất quán<br />
<br />
Định nghĩa 1.1 (Ontology). Một ontology là một bộ bốn hC, I, R, Zi, trong đó: C<br />
là tập hợp các khái niệm (các lớp); I là tập hợp các cá thể của các khái niệm; R là<br />
tập hợp các quan hệ; Z là tập hợp các tiên đề biểu diễn các ràng buộc toàn vẹn dùng<br />
để mô tả các thực thể (khái niệm, cá thể, quan hệ).<br />
<br />
<br />
3<br />
<br />