Xử lý tri thức không nhất quán trong ontology: Tóm tắt luận án Tiến sĩ Khoa học máy tính

ĐẠI HỌC HUẾ

TRƯỜNG ĐẠI HỌC KHOA HỌC

NGUYỄN VĂN TRUNG

MỘT SỐ PHƯƠNG PHÁP

XỬ LÝ TRI THỨC KHÔNG NHẤT QUÁN

TRONG ONTOLOGY

CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH

MÃ SỐ: 62.48.01.01

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

HUẾ - NĂM 2018

Công trình này được hoàn thành tại:

Trường Đại học Khoa học - Đại học Huế

Người hướng dẫn khoa học:

PGS. TS. Hoàng Hữu Hạnh, Ban Hợp tác quốc tế, Đại học Huế

Phản biện 1: ......................................................................................

......................................................................................

Phản biện 2: ......................................................................................

......................................................................................

Phản biện 3: ......................................................................................

.......................................................................................

Luận án sẽ được bảo vệ tại Hội đồng chấm luận án cấp Đại học Huế

họp tại Đại học Huế vào lúc ...... giờ ..... ngày ..... tháng ..... năm 2017

Có thể tìm hiểu luận án tại thư viện:

•Thư viện Quốc gia Việt Nam

•Thư viện Trường Đại học Khoa học, Đại học Huế

MỞ ĐẦU

1. Tính cấp thiết của đề tài

Năm 2001, Tim Berners Lee cùng cộng sự đã đưa ra phác thảo cho một “dạng thức

mới về nội dung web mà dạng thức này có ý nghĩa đối với máy tính”. Thế hệ web sử

dụng dạng thức nội dung này, gọi là Web ngữ nghĩa, cho phép máy tính có thể “hiểu”

tri thức được lưu trữ, theo đó có thể chia sẻ và tái sử dụng các cơ sở tri thức trong

các hệ thống thông tin thuộc nhiều lĩnh vực khác nhau. So với Web hiện tại – là một

kho tài liệu được liên kết với nhau, Web ngữ nghĩa là một nền tảng dữ liệu mà trong

đó thông tin được lưu ở dạng định nghĩa tường minh, cho phép máy tính và con người

có thể làm việc được cùng nhau.

Web ngữ nghĩa là một lĩnh vực nghiên cứu đang phát triển nhanh và nhận được

sự quan tâm của cộng đồng nghiên cứu trong thập niên vừa qua. Công nghệ Web ngữ

nghĩa đang được áp dụng vào nhiều lĩnh vực khác nhau trong thực tế. Thành phần

quan trọng trong các ứng dụng web ngữ nghĩa là ontology.

Trong một ontology người ta định nghĩa các thực thể (bao gồm khái niệm, thuộc

tính, cá thể) và mối quan hệ giữa các thực thể này theo ngữ nghĩa được quy định

tường minh bởi một ngôn ngữ logic xác định. Ngôn ngữ ontology được sử dụng phổ

biến và chuẩn hoá bởi tổ chức tiêu chuẩn quốc tế W3C (World Wide Web Consortium)

là OWL. Phiên bản mới nhất của ngôn ngữ này là OWL 2 (được giới thiệu vào năm

2009) dựa trên logic mô tả SROIQ(D).

Vấn đề quan trọng của Web ngữ nghĩa là phải xử lý tri thức không nhất quán trong

các ontology. Điều này bắt nguồn từ chính đặc điểm xây dựng và sử dụng ontology

trong các ứng dụng Web ngữ nghĩa: Đặc tính có thể mở rộng, có thể chia sẻ, tái sử

dụng, phân tán và đa người dùng luôn tiềm ẩn khả năng làm xuất hiện tri thức không

nhất quán trong các ontology.

Trên thực tế, nếu một ontology là không nhất quán, các truy vấn trên nó là không

có nghĩa. Điều này là bởi bất kỳ tiên đề nào cũng là hệ quả logic của một ontology

không nhất quán. Nói cách khác, sự không nhất quán làm mất đi ý nghĩa sử dụng của

ontology trong các ứng dụng Web ngữ nghĩa. Chính vì vậy, xử lý tri thức không nhất

quán trong ontology là bài toán quan trọng, có ý nghĩa thực tiễn và được cộng đồng

khoa học máy tính quan tâm nghiên cứu.

2. Động lực nghiên cứu và cách tiếp cận nghiên cứu của luận án

Các phương pháp xử lý tri thức không nhất quán trong ontology có thể được phân

làm hai nhóm: (1)nhóm phương pháp chấp nhận tồn tại tri thức không nhất quán

trong ontology, và (2) nhóm phương pháp tìm cách loại bỏ tri thức không nhất quán

khỏi ontology:

(1) Các giải pháp thuộc nhóm thứ nhất – chấp nhận tồn tại tri thức không nhất

quán trong ontology. Một số tiếp cận thuộc nhóm này định nghĩa các logic mô tả với

ngữ nghĩa nửa nhất quán và xây dựng ontology dựa trên các logic đó. Việc sử dụng

logic với ngữ nghĩa nửa nhất quán để xây dựng ontology, mặc dù tạo ra được mô hình

biểu diễn tri thức toàn diện nhưng lại khó triển khai trong thực tế do tính phổ biến

của các ngôn ngữ ontology đã được chuẩn hoá và khuyến nghị sử dụng bởi tổ chức

W3C.

Trong rất nhiều trường hợp thực tế, các ứng dụng Web ngữ nghĩa cần truy vấn

thông tin được tổng hợp từ các ontology đến từ nhiều nguồn khác nhau (và có thể

không nhất quán) mà không được phép chỉnh sửa hay tạo mới ontology. Một giải pháp

cho vấn đề này là khung lập luận với ontology không nhất quán sử dụng chiến lược

phát triển tuyến tính tập tiên đề diễn giải, được đề xuất bởi nhóm tác giả Zhisheng

Huang, Frank van Harmelen và cộng sự. Khung lập luận này tìm câu trả lời có nghĩa

cho truy vấn với ontology không nhất quán bằng cách chọn ra một tập con gồm các

tiên đề nhất quán từ ontology đầu vào – gọi là tập tiên đề diễn giải truy vấn: tập tiên

đề này có liên quan với truy vấn theo một tiêu chí cụ thể cho trước và có thể trả lời

được truy vấn. Phần quan trọng nhất của khung lập luận với ontology không nhất

quán là hàm chọn để xây dựng tập tiên đề diễn giải truy vấn. Hai hàm chọn điển hình

được nhóm tác giả phát triển là hàm chọn dựa trên sự liên quan cú pháp và hàm chọn

dựa trên khoảng cách ngữ nghĩa theo máy tìm kiếm Google. Hai hàm chọn này đều có

nhược điểm là phụ thuộc vào cú pháp của tiên đề. Khắc phục nhược điểm này chính

là một động lực nghiên cứu của luận án: Luận án đề xuất xây dựng tập tiên đề diễn

giải theo độ liên quan ngữ nghĩa giữa các tiên đề với truy vấn đầu vào. Độ liên quan

này được xác định dựa trên khoảng cách ngữ nghĩa giữa các biểu thức khái niệm khi

đặt chúng trên cây phân cấp khái niệm của một ontology gọi là ontology tham chiếu.

(2) Các giải pháp thuộc nhóm thứ hai – tìm cách loại bỏ tri thức không nhất quán

thông qua việc xây dựng mới ontology từ một hoặc nhiều ontology đầu vào. Việc tạo

mới ontology như vậy diễn ra theo hai chiến lược: chiến lược thứ nhất, dò tìm, đề xuất

chỉnh sửa hoặc loại bỏ một số tiên đề gây nên sự không nhất quán khỏi ontology; và

chiến lược thứ hai, áp dụng lý thuyết đồng thuận để xây dựng tập tiên đề hợp lý nhất

(theo một tiêu chuẩn xác định trước) có thể đại diện cho các ontology đầu vào. Chiến

lược thứ nhất thường được sử dụng để duy trì sự nhất quán của một ontology, trong

khi chiến lược thứ hai thường được sử dụng để xử lý xung đột trong quá trình tích

hợp ontology đến từ nhiều nguồn phân tán, độc lập nhau.

Các công trình xử lý tri thức không nhất quán dựa trên lý thuyết đồng thuận được

tác giả Nguyễn Ngọc Thành đề xuất vào năm 2002 và cùng với các cộng sự mở rộng

trong những năm tiếp theo. Tác giả và cộng sự đã phân loại xung đột trong quá trình

tích hợp ontology theo các mức (mức khái niệm, mức quan hệ, mức cá thể) và đề xuất

phương pháp để xử lý xung đột theo các mức này.

Trong bài toán xử lý xung đột mức khái niệm, cấu trúc khái niệm được xét theo

hai khía cạnh: tập thuộc tính mô tả khái niệm và miền giá trị của thuộc tính. Tuy vậy,

các nghiên cứu xử lý xung đột mức khái niệm trong quá trình tích hợp ontology hiện

nay chỉ tập trung xây dựng danh sách thuộc tính của khái niệm cần tích hợp. Miền

giá trị của các thuộc tính chỉ được xác định bằng cách lấy hợp của các miền giá trị

thành phần. Điều này có nghĩa xung đột về miền giá trị của thuộc tính là chưa được

xét đến. Luận án sẽ áp dụng mô hình tổng quát tích hợp tri thức theo phương pháp

đồng thuận và đề xuất phương án xử lý xung đột mức khái niệm trong quá trình tích

hợp ontology, trong đó có xét đến cả hai khía cạnh: danh sách thuộc tính và miền giá

trị của thuộc tính.

Một mức xung đột khác cũng có thể xảy ra trong quá trình tích hợp ontology đó

là xung đột mức tiên đề, theo đó, tập tiên đề của các ontology tham gia tích hợp là

có sai khác nhau hoặc thậm chí mâu thuẫn nhau. Tình huống này cũng có thể thường

xuyên xảy ra trong quá trình xây dựng ontology theo kiểu phân tán, cộng tác, đa

người dùng mà trong đó, một ontology có thể được xây dựng bởi nhiều người dùng tự

nguyện thông qua một wiki ngữ nghĩa hoặc bởi các chuyên gia được thuê. Xung đột

mức tiên đề trong quá trình tích hợp ontology hiện vẫn là bài toán chưa có giải pháp

tốt và thuyết phục như các mức khái niệm, quan hệ hay cá thể. Bằng cách biểu diễn

một tiên đề dưới dạng một literal, mỗi ontology thành phần có thể được biểu diễn

dưới dạng hội của các literal đó. Như vậy, bài toán xử lý xung đột tập tiên đề có thể

được dẫn về bài toán xử lý xung đột ở cấp độ cú pháp của các công thức hội. Luận án

sẽ xây dựng khoảng cách giữa hai công thức hội, phân tích các tiêu chuẩn cho công

thức hội đồng thuận và đề xuất phương án tìm công thức hội đồng thuận. Kết quả

này có thể áp dụng cho bài toán xử lý xung đột mức tiên đề.

3. Mục tiêu, đối tượng và phạm vi nghiên cứu của luận án

Đối tượng nghiên cứu của luận án là ontology, tri thức không nhất quán trong

ontology, và các phương pháp xử lý tri thức không nhất quán trong ontology. Trên cơ

sở phân tích các động lực nghiên cứu, luận án xác định mục tiêu xử lý tri thức không

nhất quán trong ontology theo hai tác vụ truy vấn và tích hợp. Mục tiêu nghiên cứu

cụ thể của luận án được giới hạn theo ba bài toán sau đây:

•Bài toán thứ nhất: Xác định câu trả lời có nghĩa khi truy vấn với ontology không

nhất quán. Trong bài toán này, luận án nghiên cứu đề xuất phương pháp sử dụng

ontology tham chiếu để tính khoảng cách ngữ nghĩa giữa hai khái niệm, giữa hai

biểu thức khái niệm, giữa hai tiên đề. Khoảng cách ngữ nghĩa này sẽ được dùng

để xây dựng hàm chọn của khung lập luận với ontology không nhất quán.

•Bài toán thứ hai: Xử lý xung đột mức khái niệm trong quá trình tích hợp ontology.

Luận án sẽ áp dụng mô hình tổng quát tích hợp tri thức theo phương pháp đồng

thuậnđể tìm đồng thuận cho cấu trúc khái niệm. Sự không nhất quán trong cấu

trúc khái niệm sẽ được giải quyết ở cả danh sách thuộc tính và miền giá trị của

các thuộc tính.

•Bài toán thứ ba: Xử lý xung đột mức tiên đề trong quá trình tích hợp ontology.

Trên cơ sở biểu diễn xung đột mức tiên đề trong quá trình tích hợp ontology dưới

dạng xung đột về cú pháp, luận án đánh giá độ sai khác của các tập tiên đề và

xây dựng phương pháp tìm tập tiên đề đồng thuận theo các tiêu chuẩn dựa trên

độ sai khác này.

Chương 1

TỔNG QUAN VỀ XỬ LÝ TRI THỨC KHÔNG NHẤT

QUÁN TRONG ONTOLOGY

1.1. Ontology và tri thức không nhất quán

Định nghĩa 1.1 (Ontology).Một ontology là một bộ bốn hC,I,R,Zi, trong đó: C

là tập hợp các khái niệm (các lớp); Ilà tập hợp các cá thể của các khái niệm; Rlà

tập hợp các quan hệ; Zlà tập hợp các tiên đề biểu diễn các ràng buộc toàn vẹn dùng

để mô tả các thực thể (khái niệm, cá thể, quan hệ). 

Tóm tắt luận án Tiến sĩ Khoa học máy tính: Một số phương pháp xử lý tri thức không nhất quán trong ontology

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi