Hoàng Hữu Hạnh, Nguyễn Văn Trung<br />
<br />
<br />
<br />
MỘT CẢI TIẾN TRONG ĐÁNH GIÁ ĐỘ<br />
TƯƠNG TỰ NGỮ NGHĨA GIỮA HAI KHÁI<br />
NIỆM TRONG KỸ NGHỆ ONTOLOGY<br />
Hoàng Hữu Hạnh*, Nguyễn Văn Trung+<br />
Học Viện Công nghệ Bưu chính Viễn thông<br />
+<br />
Trường Đại học Khoa học Huế<br />
<br />
Tóm tắt: Đánh giá độ tương tự giữa hai khái niệm trong Trên thực tế, do tính tương tự của khái niệm hay thuộc tính<br />
ontology đóng vai trò quan trọng trong các bài toán thuộc khi xét trên cây phân cấp của chúng nên các kỹ thuật đánh<br />
lĩnh vực kỹ nghệ ontology bao gồm: đối sánh, so khớp, tích giá độ tương tự giữa hai khái niệm cũng có thể được áp<br />
hợp ontology. Bài báo này nêu một phương pháp mới để dụng cho hai thuộc tính. Theo T. Slimani [2], các kỹ thuật<br />
đánh giá độ tương tự ngữ nghĩa giữa hai khái niệm trong đánh giá độ tương tự giữa hai khái niệm trong ontology<br />
ontology. Bài báo cũng trình bày phương pháp quy hoạch được phân thành các loại sau đây:<br />
động để tính độ tương tự ngữ nghĩa giữa hai biểu thức khái (1) Đánh giá dựa vào cấu trúc: còn được gọi là đánh giá<br />
niệm bất kỳ dựa vào ontology cho trước.1 dựa vào việc đếm số cạnh nối giữa hai khái niệm<br />
trên cây phân cấp khái niệm.<br />
Từ khóa: Độ tương tự ngữ nghĩa, ngữ nghĩa, ontology, (2) Đánh giá dựa vào nội dung thông tin: đánh giá độ<br />
Web ngữ nghĩa tương tự giữa hai khái niệm dựa vào tần suất xuất<br />
hiện của các từ khoá tương ứng với hai khái niệm<br />
I. GIỚI THIỆU<br />
trong một tập hợp tài liệu cho trước.<br />
Web ngữ nghĩa là một lĩnh vực nghiên cứu đang phát (3) Đánh giá dựa vào đặc trưng của hai khái niệm đang<br />
triển nhanh trong phát triển của trí tuệ nhân tạo và các hệ xét. Đặc trưng của khái niệm có thể là tập hợp các từ<br />
thống tri thức; và nhận được sự quan tâm của cộng đồng đồng nghĩa của nó trong từ điển WordNet hoặc tập<br />
nghiên cứu trong thập niên vừa qua. Công nghệ Web ngữ hợp mối quan hệ của khái niệm trên cấu trúc phân<br />
nghĩa đang được áp dụng vào nhiều lĩnh vực khác nhau cấp.<br />
trong thực tế như tin-sinh học, tin học trong y tế, quản trị tri Ngoài ba nhóm phương pháp trên, trong một số trường<br />
thức, công nghệ phần mềm, xử lý ngôn ngữ tự nhiên, v.v… hợp, người ta cũng sử dụng kết hợp phương pháp dựa vào<br />
Thành phần quan trọng trong cấu túc của Web ngữ nghĩa và cấu trúc với phương pháp đánh giá dựa vào nội dung thông<br />
các ứng dụng của nó là ontology. tin hoặc đánh giá dựa vào đặc trưng của khái niệm.<br />
Trong một ontology người ta định nghĩa các thực thể -- Nhóm phương pháp đánh giá dựa vào cấu trúc được nhận<br />
bao gồm khái niệm, thuộc tính, cá thể -- và mối quan hệ xét là đơn giản do chỉ phụ thuộc cấu trúc phân cấp của<br />
giữa các thực thể này theo ngữ nghĩa được quy định tường ontology chứ không cần tham khảo đến nguồn dữ liệu ngoài<br />
minh bởi một ngôn ngữ logic xác định. Ngôn ngữ ontology như hai nhóm phương pháp còn lại. Một trong những<br />
được sử dụng phổ biến nhất hiện nay là OWL 22, được phương pháp đánh giá độ tương tự giữa hai khái niệm thuộc<br />
chuẩn hoá bởi tổ chức W3C vào năm 2012. Mối quan hệ nhóm này được ra đời sớm nhất là phương pháp của Wu và<br />
thường được xét đến nhiều nhất giữa các thực thể trong một Palmer [4]. Mặc dù được ra đời sớm và được nhận xét là<br />
ontology chính là mối quan hệ phân cấp, theo đó, các thực đơn giản nhưng phương pháp đánh giá của Wu và Palmer<br />
thể trong ontology được xếp trên các cây phân cấp: cây vẫn còn được sử dụng trong những năm gần đây, trong<br />
phân cấp khái niệm và cây phân cấp thuộc tính. nhiều công trình thuộc các lĩnh vực Web ngữ nghĩa hay xử<br />
Một trong những khâu quan trọng trong các bài toán lý ngôn ngữ tự nhiên [5].<br />
thuộc lĩnh vực kỹ nghệ ontology như đối sánh ontology, so Bài báo này sẽ phân tích và đề xuất một cải tiến cho<br />
khớp ontology, tích hợp ontology chính là đánh giá mức độ phương pháp Wu và Palmer để đánh giá độ tương tự giữa<br />
tương tự giữa hai thực thể của một hoặc nhiều ontology. hai khái niệm. Các phần tiếp theo của bài báo được trình<br />
bày như sau: Phần 2 trình bày các khái niệm cơ bản để tính<br />
Tác giả liên lạc: Hoàng Hữu Hạnh, độ tương tự ngữ nghĩa giữa hai khái niệm trên cây phân cấp<br />
Email: hoanghuuhanh@ptit.edu.vn của ontology. Phần 3 – là đóng góp chính của bài báo – nêu<br />
Đến tòa soạn: 11 /2019, chỉnh sửa: 12 /2019, chấp nhận đăng: 12/2019. các điểm còn tồn tại và đề xuất cải tiến cho phương pháp<br />
đánh giá của Wu-Palmer. Trong phần này, bài báo cũng<br />
trình bày phương pháp quy hoạch động để đánh giá độ<br />
<br />
SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 12<br />
MỘT CẢI TIẾN TRONG ĐÁNH GIÁ ĐỘ TƯƠNG TỰ NGỮ NGHĨA GIỮA HAI KHÁI NIỆM TRONG KỸ NGHỆ ONTOLOGY<br />
<br />
<br />
tương tự ngữ nghĩa giữa hai biểu thức khái niệm. Phần 4 niệm có tên trong . Với mọi khái niệm , ta có:<br />
của bài báo nêu kết luận và hướng mở rộng của bài báo.. •<br />
II. PHƯƠNG PHÁP WU-PALMER ĐÁNH GIÁ ĐỘ •<br />
TƯƠNG TỰ GIỮA HAI KHÁI NIỆM TRONG • khi<br />
ONTOLOGY • khi hoặc<br />
Gọi là một ontology. là tập các khái niệm có tên hoặc<br />
trong . Với hai khái niệm , chúng ta ký hiệu:<br />
− là tập các khái niệm cha trực tiếp của Dưới đây là ví dụ cho thấy các đặc điểm của phương<br />
pháp tính độ tương tự ngữ nghĩa giữa hai khái niệm trong<br />
trên .<br />
ontology.<br />
− là tập các khái niệm con trực tiếp của<br />
trên . Ví dụ 1. Cho ontology với các khái niệm lập thành cây<br />
− là tập các khái niệm cha chung nhỏ phân cấp như hình dưới đây:<br />
nhất của và trên .<br />
Lưu ý rằng, chúng ta luôn ngầm định, khái niệm đỉnh<br />
và khái niệm đáy là hai khái niệm có tên trong , tức là:<br />
và .<br />
Chúng ta định nghĩa số cạnh nối giữa hai khái niệm trên<br />
cây phân cấp khái niệm của ontology như sau:<br />
Định nghĩa 1. (Số cạnh nối giữa hai khái niệm trên<br />
cây phân cấp của ontology) Gọi là một ontology. là<br />
tập các khái niệm có tên trong . Ta nói là số cạnh<br />
nối giữa hai khái niệm , ký hiệu là<br />
nếu tồn tại là dãy ngắn nhất<br />
các khái niệm có tên trong sao cho:<br />
<br />
Hình 1. Cây phân cấp khái niệm của ontology động vật<br />
Độ tương tự giữa hai khái niệm và trong<br />
ontology được xác định lần lượt theo từng bước như sau:<br />
Ta quy ước: •<br />
− với ;<br />
•<br />
− nếu hoặc không phải là<br />
•<br />
khái niệm con của .<br />
•<br />
− Trong trường hợp ontology đã được xác định rõ,<br />
chúng ta có thể bỏ qua chỉ số để viết μ thay vì<br />
.<br />
<br />
Phương pháp đánh giá độ tương tự ngữ nghĩa giữa hai •<br />
khái niệm của Wu và Palmer được dựa trên số cạnh nối giữa<br />
hai khái niệm này đến khái niệm cha chung nhỏ nhất của Tương tự như vậy, độ tương tự ngữ nghĩa giữa hai khái<br />
chúng trên cây phân cấp khái niệm. niệm và – cũng có khái niệm cha chung nhỏ<br />
Định nghĩa 2. Gọi là một ontology. là tập các nhất là được tính như sau:<br />
khái niệm có tên trong . Độ tương tự ngữ nghĩa giữa hai<br />
khái niệm , ký hiệu là được xác định<br />
như sau:<br />
<br />
<br />
<br />
3<br />
Chúng ta có một số nhận xét rút ra trực tiếp từ Định<br />
nghĩa 1 và Định nghĩa 2 như mệnh đề dưới đây:<br />
Ở Ví dụ 1, chúng ta có thể thấy rằng,<br />
. Điều phản ánh đúng hình<br />
Mệnh đề 1. Gọi là một ontology. là tập các khái<br />
ảnh trực quan của cây phân cấp khái niệm ở Hình 1: Hai<br />
<br />
SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 13<br />
Hoàng Hữu Hạnh, Nguyễn Văn Trung<br />
<br />
khái niệm càng cách xa khái niệm cha chung nhỏ nhất thì<br />
có độ giống nhau càng thấp. Đây cũng chính là ưu điểm của Định nghĩa 3. (Số cạnh nối μ’ giữa hai khái niệm trên<br />
phương pháp đánh giá Wu-Palmer. cây phân cấp của ontology) Gọi là một ontology. là<br />
Tuy vậy, phương pháp đánh giá Wu-Palmer có một tập các khái niệm có tên trong . Số cạnh nối trực tiếp μ’<br />
nhược điểm: không thể đánh giá được mức độ giống nhau giữa hai khái niệm , ký hiệu là được<br />
của các cặp khái niệm khi chúng có khái niệm cha chung xác định như sau:<br />
nhỏ nhất là ⊤. Điều này được chỉ ra ở Ví dụ 2 dưới đây:<br />
Ví dụ 2. Xét ontology ở Ví dụ 1. Ta có:<br />
<br />
<br />
• Trong trường hợp ontology đã được xác định rõ, chúng<br />
ta có thể bỏ qua chỉ số để viết μ’ thay vì .<br />
<br />
Bằng cách sử dụng μ’ thay cho μ trong công thức ở Định<br />
• nghĩa 2, chúng ta sẽ có công thức mới để đánh giá độ tương<br />
tự ngữ nghĩa giữa hai khái niệm như sau:<br />
<br />
Định nghĩa 4. Gọi là một ontology. là tập các khái<br />
niệm có tên trong . Độ tương tự ngữ nghĩa σ’ giữa hai<br />
• khái niệm , ký hiệu là được xác định<br />
Như vậy, theo cách tính của Wu và Palmer, cả hai cặp như sau:<br />
khái niệm và đều<br />
có độ tương tự như nhau, và bằng 0.<br />
<br />
Chúng ta cần phân biệt mức độ tương tự nhau giữa hai<br />
cặp khái niệm và Có thể thấy rằng, cũng có các tính chất tương tự như<br />
thay vì đánh giá chúng bằng nhau (và đều bằng 0) như cách được nêu ở Mệnh đề 1. Tức là:<br />
đánh gia của Wu và Palmer. Điều này thật sự cần thiết trong<br />
•<br />
các bài toán lựa chọn khái niệm thuộc về hai nhánh gốc của<br />
cây phân cấp khái niệm, chẳng hạn như bài toán xử lý xung •<br />
đột mức khái niệm trong quá trình tích hợp ontology theo • khi<br />
cách tiếp cận của lý thuyết đồng thuận [3]. Phần tiếp theo • khi hoặc hoặc .<br />
của bài báo sẽ nêu những điều chỉnh để khắc phục nhược Ví dụ dưới đây sẽ cho thấy tính chất ở Mệnh đề 1 của độ<br />
điểm này của phương pháp Wu-Palmer. tương tự cũng có trong độ tương tự .<br />
<br />
III. CÁC ĐỀ XUẤT ĐỂ KHẮC PHỤC HẠN CHẾ CỦA Ví dụ 3. Xét ontology như ở Ví dụ 1. Chúng ta tính độ<br />
PHƯƠNG PHÁP WU-PALMER<br />
tương tự ngữ nghĩa σ’ cho các cặp khái niệm và<br />
Phần này của bài báo trình bày cải tiến phương pháp Wu- .<br />
Palmer để tính độ tương tự ngữ nghĩa giữa hai khái niệm<br />
trong ontology theo các tiêu chí:<br />
• Vẫn đảm bảo tính chất của hàm tính độ tương tự như<br />
đã chỉ ra ở Mệnh đề 1.<br />
• Giữ được đặc tính trực quan của cây phân cấp khái<br />
niệm như phương pháp tính độ tương tự ngữ nghĩa<br />
của Wu-Palmer: Hai khái niệm càng cách xa khái •<br />
niệm cha chung nhỏ nhất thì có độ giống nhau<br />
càng thấp.<br />
• Phân biệt được mức độ giống nhau giữa các cặp<br />
khái niệm có khái niệm cha chung nhỏ nhất là khái<br />
niệm đỉnh ⊤.<br />
Trên thực tế, chúng ta chỉ cần điều chỉnh cách tính “số<br />
cạnh nối giữa hai khái niệm trên cây phân cấp của •<br />
ontology” ở Định nghĩa 1 như sau. “Số cạnh” này được gọi<br />
là số cạnh μ’ trong bài báo này. Như vậy, – hay,<br />
<br />
SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 14<br />
MỘT CẢI TIẾN TRONG ĐÁNH GIÁ ĐỘ TƯƠNG TỰ NGỮ NGHĨA GIỮA HAI KHÁI NIỆM TRONG KỸ NGHỆ ONTOLOGY<br />
<br />
<br />
giống với hơn khi so sánh và . Điều phản theo ontology được hiểu là độ tương tự của hai<br />
ánh đúng hình ảnh trực quan của cây phân cấp khái niệm: biểu thức khái niệm này khi đặt trên cây phân cấp khái niệm<br />
Hai khái niệm càng cách xa khái niệm cha chung nhỏ nhất của ontology . Ontology khi đó được gọi là ontology<br />
thì có độ giống nhau càng thấp. Nói cách khác, độ tương tự tham chiếu.<br />
σ’ vẫn giữ đúng ưu điểm của phương pháp tính Wu-Palmer. Độ tương tự ngữ nghĩa giữa hai khái niệm theo<br />
ontology được xác định theo công thức ở Định nghĩa 4<br />
3.1. Khảo sát độ tương tự σ’ của hai khái niệm khi có như sau:<br />
khái niệm cha chung nhỏ nhất là khái niệm đỉnh<br />
Xét hai khái niệm sao cho<br />
. Khi đó được xác định như<br />
sau:<br />
Chúng ta có thể tính số cung nối giữa hai biểu thức khái<br />
niệm bất kỳ và dựa theo số cung nối giữa hai khái<br />
niệm có tên của ontology theo 3 trường hợp như sau:<br />
- Trường hợp 1) . Khi đó:<br />
Điều này chứng tỏ: Khi thì<br />
chứ không bị triệt tiêu như phương pháp của - Trường hợp 2) . Khi đó:<br />
Wu-Palmer. Hơn nữa, cũng bảo đảm rằng, khi hai<br />
khái niệm càng cách xa khái niệm đỉnh ⊤ (và càng - Trường hợp 3) Không có khái niệm có tên trên tương<br />
cách xa nhau – do hai khái niệm thuộc về hai nhánh của đương với hoặc . Khi đó:<br />
khái niệm đỉnh ⊤) thì độ tương tự giữa chúng càng giảm.<br />
Điều này cũng phản ánh đúng tính chất trực quan của cây<br />
Như vậy, bằng cách tính sẵn các thông số μ’ giữa các cặp<br />
phân cấp khái niệm.<br />
khái niệm của ontology (có thể dùng thuật toán tìm<br />
đường đi ngắn nhất giữa các cặp đỉnh như Floyd [1] chẳng<br />
Ví dụ 4. Xét lại ontology ở Ví dụ 1. Ta có:<br />
hạn), chúng ta có thể tính nhanh độ tương tự ngữ nghĩa σ’<br />
theo ontology tham chiếu của cặp biểu thức khái niệm bất<br />
• kỳ.<br />
<br />
IV. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN<br />
Bài báo đã đề xuất cách tính số cung nối μ’ giữa hai khái<br />
niệm trên cây phân cấp khái niệm của ontology, qua đó đưa<br />
ra cải tiến cho phương pháp Wu-Palmer để tính độ tương tự<br />
ngữ nghĩa σ’giữa hai khái niệm. Độ tương tự này vẫn giữ<br />
• nguyên ưu điểm của phương pháp gốc, nhưng cho phép<br />
định lượng được mức độ giống nhau của các cặp khái niệm<br />
nhận ⊤ làm khái niệm cha chung nhỏ nhất. Bài báo cũng<br />
đưa ra phương pháp hiệu quả để tính độ tương tự ngữ nghĩa<br />
theo ontology tham chiếu của hai biểu thức khái niệm bất<br />
kỳ.<br />
Trong tương lai, chúng tôi sẽ phân tích và áp dụng các đề<br />
• xuất của bài báo này cho các phương pháp đánh giá độ<br />
tương tự ngữ nghĩa khác (ngoài Wu-Palmer) theo hai<br />
Như vậy, hướng: đánh giá độ tương tự ngữ nghĩa giữa hai khái niệm<br />
– hay, giống với hơn khi so sánh trong ontology và đánh giá độ tương tự ngữ nghĩa giữa hai<br />
với . Điều này cũng phản ánh đúng hình ảnh biểu thức khái niệm bất kỳ.<br />
trực quan của cây phân cấp khái niệm ở Hình 1.<br />
REFERENCES<br />
3.2. Vấn đề tính độ tương tự ngữ nghĩa giữa hai hai [1] R. Floyd (1962). Algorithm 97: shortest path,<br />
biểu thức khái niệm Communications of the ACM1, Vol. 5, Issue 6. pp. 345.<br />
[2] T. Slimani (2013). Description and Evaluation of Semantic<br />
Similarity Measures Approaches. International Journal of<br />
Với là một ontology, chúng ta mở rộng khái niệm độ<br />
Computer Applications, Vol. 80, Issue 10, pp. 25-33.<br />
tương tự giữa hai khái niệm trong ontology thành “độ tương [3] T. V. Nguyen, H. H. Hoang (2016). A Consensus-Based<br />
tự giữa hai biểu thức khái niệm theo ontology ” như sau: Method for Solving Concept-Level Conflict in Ontology<br />
Độ tương tự ngữ nghĩa giữa hai biểu thức khái niệm Integration, Trans. Computational Collective Intelligence, Vol.<br />
LCNS 8733, Issue XXII, pp. 414-423.<br />
<br />
SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 15<br />
Hoàng Hữu Hạnh, Nguyễn Văn Trung<br />
<br />
[4] T. Wu, Z. Palmer (1994), Verb Semantics and Lexical<br />
Selection, Proceedings of the 32nd annual meeting on<br />
Association for Computati`onal Linguistics, pp. 133-138.<br />
[5] Zhisheng Huang, Frank van Harmelen (2008). Using<br />
semantic distances for reasoning with inconsistent ontologies,<br />
The Semantic Web - ISWC 2008, p. 454-459.<br />
<br />
<br />
Hoàng Hữu Hạnh sinh ngày 13/04/1974 tại<br />
Huế. Năm 1996, ông tốt nghiệp Cử nhân<br />
ngành Toán-Tin học tại Trường Đại học Sư<br />
phạm Huế, Thạc sĩ khoa học tại Trường Đại<br />
học Bách khoa Hà Nội. Năm 2007, ông nhận<br />
học vị Tiến sĩ chuyên ngành Hệ thống thông<br />
tin tại Trường Đại học Công nghệ Vienna,<br />
Cộng hoà Áo. Năm 2012, ông nhận Chức<br />
danh Phó giáo sư tại Việt Nam. Từ năm 1996-2018 đến nay, ông là<br />
Giảng viên Khoa Công nghệ Thông tin, Trường ĐH Khoa học<br />
Huế; đồng thời đảm trách các nhiệm vụ quản lý tại Đại học Huế từ<br />
2008 đến 2018. Từ tháng 10 năm 2018 ông là Giảng viên cao cấp<br />
tại Học viện Công nghệ Bưu chính Viễn thông (PTIT). Hiện nay là<br />
Giám đốc Trung tâm Đào tạo Quốc tế của PTIT.<br />
Lĩnh vực nghiên cứu: Biểu diễn tri thức, Web ngữ nghĩa, Linked<br />
Data, Ontology, Logic mô tả, Công nghệ phần mềm, Công nghệ<br />
dữ liệu, Quản lý quy trình nghệp vụ.<br />
<br />
Nguyễn Văn Trung sinh ngày 25/10/1981<br />
tại Thừa Thiên Huế. Năm 2003 ông tốt<br />
nghiệp cử nhân chuyên ngành Tin học tại<br />
trường Đại học Khoa học Huế. Năm 2018<br />
ông nhận bằng Tiến sĩ chuyên ngành Khoa<br />
học máy tính tại trường Đại học Huế. Từ<br />
năm 2004 đến nay ông giảng dạy và nghiên<br />
cứu khoa học tại Khoa Công nghệ Thông tin,<br />
trường Đại học Khoa học Huế.<br />
Lĩnh vực nghiên cứu: Các hệ thống thông tin,<br />
Quản lý và biểu diễn tri thức, Công nghệ phần mềm.<br />
<br />
<br />
<br />
<br />
SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 16<br />