Cũng d

Đại Học Quốc Gia TP. Hồ Chí Minh

TRƯỜNG ĐẠI HỌC BÁCH KHOA

---------o0o----------

LUẬN VĂN ĐẠI HỌC

XỬ LÝ CÁC CÂU TRUY VẤN VÀ TÌM KIẾM TRÊN KHO TÀI LIỆU CÓ CHÚ THÍCH NGỮ NGHĨA BẰNG TIẾNG ANH

Chuyên ngành: Khoa Học Máy Tính

GVHD

: Pgs.Ts. Cao Hoàng Trụ

Sinh viên : Nguyễn Trần Đăng Khoa

(50601130)

Tạ Tất Tài (50602084)

TP. Hồ Chí Minh, tháng 12 – 2010

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI

TRƯỜNG ĐẠI HỌC BÁCH KHOA

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

Cán bộ hướng dẫn khoa học : PGS.TS. CAO HOÀNG TRỤ

Cán bộ chấm nhận xét 1 : .........................................................................................

Cán bộ chấm nhận xét 2 : .........................................................................................

Luận văn đại học được bảo vệ tại HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN ĐẠI HỌC

TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày . . . . . tháng . . . . năm . . . . .

LỜI CAM ĐOAN

Tôi cam đoan rằng ngoại trừ các kết quả tham khảo từ các công trình khác như đã ghi rõ trong luận

văn, các công việc trình bày trong luận văn này là do chính tôi thực hiện và chưa có phần nội dung

nào của luận văn này được nộp để lấy một bằng cấp ở trường đại học nào khác.

Ngày ................ Tháng ............ Năm ..........

Ký tên

LỜI CẢM ƠN

Trước hết, chúng tôi xin gởi lời cảm ơn chân thành và sâu sắc đến Pgs.Ts. Cao Hoàng Trụ, và

kỹ sư Châu Kim Cường, những người đã trực tiếp hướng dẫn tôi trong quá trình làm luận văn này.

Sự hướng dẫn chu đáo, tận tình, cùng với những tài liệu và lời khuyên quý giá của thầy và anh trong

hơn 3 tháng qua là nhân tố không thể thiếu để chúng tôi có thể hoàn thành nhiệm vụ.

Chúng tôi xin gửi lời cảm ơn đến gia đình và bạn bè, những người luôn sát cánh, động viên, và

tạo mọi điều kiện tốt nhất để chúng tôi có thể học tập và hoàn tất được luận văn tốt nghiệp này.

Chúng tôi chân thành biết ơn sự tận tình dạy dỗ và sự giúp đỡ của tất cả quý thầy cô khoa Khoa

học và Kỹ thuật Máy tính trường Đại học Bách khoa.

Luận văn này khó tránh khỏi còn thiếu sót do tầm nhìn của chúng tôi còn hạn hẹp, rất mong

nhận được sự góp ý của quý thầy cô cùng các bạn.

TÓM TẮT

Từ khi ra đời đến nay, World Wide Web đã trở thành một công cụ quan trọng để lưu trữ và chia

sẻ nguồn tri thức khổng lồ. Tuy nhiên, các công cụ phần mềm hiện nay chưa hỗ trợ thật hiểu quả

cho con người trong quá trình khai thác kho tri thức ấy. Với mong muốn làm hiệu quả hơn quá trình

đó, luận văn này xây dựng một công cụ tìm kiếm có thể “hiểu” được nội dung của câu truy vấn bằng

tiếng Anh và trả về kết quả.

Để biên dịch câu truy vấn ngôn ngữ tự nhiên, luận văn này dựa trên nền tảng web ngữ nghĩa,

kết hợp với phương pháp dịch ít phụ thuộc vào cú pháp của nhóm VN-KIM. Để thể hiện nội dung

biên dịch được, luận văn biểu diễn bằng đồ thị ý niệm. Cuối cùng, câu truy vấn SeRQL được dùng

để tìm kiếm kết quả.

Hiệu quả của hệ thống được đánh giá trên tập câu truy vấn mẫu “TREC 2002”.

MỤC LỤC

CHƯƠNG 1 TỔNG QUAN ............................................................ Error! Bookmark not defined.

1.1 Giới thiệu....................................................................................................................... 1

1.2 Mục tiêu và phạm vi ...................................................................................................... 3

1.3 Cấu trúc luận văn ........................................................................................................... 5

CHƯƠNG 2 6

CÁC NGHIÊN CỨU VÀ HỆ THỐNG LIÊN QUAN ....................... Error! Bookmark not defined.

2.1 Rút trích quan hệ............................................................................................................ 6

2.2 Sơ lược về đồ thị ý niệm ................................................................................................ 7

2.2.1 Đồ thị ý niệm mở rộng ............................................................................................. 9

2.2.2 Các phương pháp chuyển đổi câu truy vấn sang đồ thị ý niệm . Error! Bookmark not

defined.

CHƯƠNG 3 12

PHƯƠNG PHÁP TIẾP CẬN .........................................................................................................12

3.1 Chuyển đổi câu truy vấn với từ để hỏi “How many” .................................................... 12

3.2 Chuyển đổi câu truy vấn có tính từ ............................................................................... 14

3.3 Chuyển đổi câu truy vấn có tính từ so sánh nhất ........................................................... 16

3.4 Chuyển đổi câu truy vấn có liên từ luận lý ................................................................... 17

CHƯƠNG 4 21

PHƯƠNG PHÁP BIÊN DỊCH ......................................................... Error! Bookmark not defined.

4.1 Các bước của giải thuật ................................................................................................ 21

4.1.1 Phân tách câu truy vấn ............................................................................................23

4.1.2 Nhận biết thực thể có tên .........................................................................................23

4.1.3 Nhận biết thực thể không tên ...................................................................................23

4.1.4 Nhận biết tính từ .....................................................................................................24

4.1.5 Nhận biết từ quan hệ ...............................................................................................24

4.1.6 Xác định lớp của thực thể ........................................................................................24

4.1.7 Gom các thực thể ....................................................................................................25

4.1.8 Xác định quan hệ ẩn ................................................................................................26

4.1.9 Xác định loại quan hệ giữa các thực thể ..................................................................26

4.1.10 Xoá bỏ quan hệ không phù hợp ...............................................................................29

4.1.11 Xác định quan hệ giữa tính từ và thực thể................................................................30

4.1.12 Xây dựng đồ thị ý niệm ...........................................................................................33

4.2 Tập luật ....................................................................................................................... 33

4.2.1 Cấu trúc của hệ thống luật .......................................................................................34

4.2.2 Cấu trúc thành phần điều kiện của luật ....................................................................35

4.2.3 Cấu trúc thành phần hành động của luật ..................................................................35

4.2.4 Xây dựng một số luật đặc biệt .................................................................................36

4.2.5 Xây dựng từ điển luật ..............................................................................................37

4.3 Kết quả thí nghiệm....................................................................................................... 39

CHƯƠNG 5 47

ĐỒ THỊ Ý NIỆM ............................................................................. Error! Bookmark not defined.

Lưu trữ đồ thị............................................................................................................... 55 5.1

Hiển thị đồ thị ................................................................ Error! Bookmark not defined. 5.2

CHƯƠNG 6 62

KẾT LUẬN 62

TÀI LIỆU THAM KHẢO ..............................................................................................................64

PHỤ LỤC A: TẬP CÂU MẪU TREC 2002 .............................................................................................68

PHỤ LỤC C: ĐỒ THỊ Ý NIỆM SINH ĐÚNG TỪ TREC 2002 TRƯỚC KHI LÀM GIÀU ONTOLOGY .............73

PHỤ LỤC D: ĐỒ THỊ Ý NIỆM SINH ĐÚNG TỪ TREC 2002 SAU KHI LÀM GIÀU ONTOLOGY ..................74

DANH MỤC HÌNH

Hình 2.1: Ví dụ về đồ thị ý niệm. ............................................... Error! Bookmark not defined.

Hình 2.2: Ví dụ về biểu diễn câu truy vấn sử dụng HA (Hypostatic abstraction). ...............Error! Bookmark not defined.

Hình 2.3: Ví dụ về biểu diễn câu truy vấn lồng nhau sử dụng đỉnh truy vấn con. ...............Error! Bookmark not defined.

Hình 3.1: Ví dụ về biểu diễn câu truy vấn "How many". ..........................................................13

Hình 3.2: Ví dụ về biểu diễn câu truy vấn "How many" ở dạng rút gọn. ...................................13

Hình 3.3: Ví dụ về biểu diễn tổng quát cho câu truy vấn "How many". ....................................13

Hình 4.1: Mô tả các bước dùng để xây dựng đồ thị ý niệm cho câu truy vấn. ............................22

Hình 4.2: Xác định loại quan hệ giữa hai thực thể ei và ej. ........................................................27

Hình 4.3: Lược đồ ánh xạ kiểu quan hệ của bộ ba truy vấn. ......................................................28

Hình 4.4: Xác định loại quan hệ giữa tính từ adj và thực thể. ....................................................31

Hình 4.5: Lược đồ ánh xạ kiểu quan hệ giữa tính từ và thực thể. ..............................................32

Hình 4.6: Cấu trúc tập thành phần TransformRules và rule. ......................................................34

Hình 4.7: Cấu trúc của thành phần điều kiện luật. .....................................................................36

Hình 4.8: Ví dụ về thành phần premise.....................................................................................36

Hình 4.9: Cấu trúc của thành phần hành động. .........................................................................37

Hình 4.10: Cấu trúc từ điển quan hệ. ..........................................................................................38

Hình 4.11: Ví dụ một luật hoàn chỉnh. ........................................................................................38

Hình 4.12: Ví dụ một số thành phần trong từ điển. .....................................................................38

Hình 4.13: Ví dụ về biểu diễn câu truy vấn “Queried relation”. ..................................................42

Hình 4.14: Ví dụ về biểu diễn câu truy vấn “Advert / Temporal”. ..............................................42

Cấu trúc dữ liệu sử dụng để lưu trữ đồ thị ý niệm kết quả. ........ Error! Bookmark not Hình 5.1: defined.

Cấu trúc dữ liệu sử dụng để hiển thị đồ thị ý niệm kết quả. ....... Error! Bookmark not Hình 5.2: defined.

Hình 5.3: Ví dụ về kết quả phương pháp lưu trữ và hiển thị đồ thị ý niệm.Error! Bookmark not defined.

DANH MỤC BẢNG

Bảng 4.1: Bảng thuộc tính thành phần premise. ........................................................................35

Bảng 4.2: Mô tả các thuộc tính của thành phần entry. ...............................................................38

Bảng 4.3: Kết quả thực nghiệm trên TREC 2002 khi chưa áp dụng phương pháp đề nghị. ........40

Bảng 4.4: Kết quả thực nghiệm trên TREC 2002 sau khi áp dụng phương pháp đề nghị. ..........40

Bảng 4.5: Kết quả thực nghiệm trên TREC 2002 sau khi làm giàu Ontology. ...........................41

Bảng 4.6: Bảng tổng kết kết quả cuối cùng đạt được trên tập TREC 2002. ................................43

Bảng 4.7: Kết quả thực nghiệm trên TREC 2007 khi chưa áp dụng phương pháp đề nghị. ........44

Bảng 4.8: Kết quả thực nghiệm trên TREC 2007 sau khi áp dụng phương pháp đề nghị. ..........44

Bảng 4.9: Kết quả thực nghiệm trên TREC 2007 sau khi làm giàu Ontology. ...........................45

Bảng 4.10: Bảng tổng kết kết quả cuối cùng đạt được trên tập TREC 2007. ................................46

CHƯƠNG 1

TỔNG QUAN

1.1 Giới thiệu

Kể từ khi ra đời đến nay, World Wide Web (WWW) đã làm thay đổi rất nhiều cách con người

trao đổi và tiếp cận với thông tin, tri thức. Và đối với nền kinh tế tri thức hiện nay, tầm quan trọng

của WWW càng lớn hơn. Điều đó đặt ra yêu cầu là: phải làm sao để quá trình khai thác tri thức từ

WWW đạt được hiệu suất tối ưu. Muốn vậy, một giải pháp là phải tự động hóa được quá trình đó;

nói cách khác, máy móc phải có khả năng khai thác thông tin trên WWW với một độ chính xác cao.

Hiện nay, đã có những công cụ phần mềm nhắm đến mục tiêu đó. Nổi bật nhất có lẽ là các động

cơ tìm kiếm dựa trên từ khóa (keyword – based search engine), như động cơ tìm kiếm của Google,

Yahoo,... Tuy đã đạt được những thành công nhất định, nhưng các hệ thống này còn có những

khuyết điểm làm cho người sử dụng chưa được hài lòng. Có thể nêu ra như:

 Kết quả trả về cho một truy vấn là nhiều, nhưng độ chính xác lại thấp. Người dùng phải tốn

nhiều thời gian với những kết quả không thích hợp.

 Kết quả trả về hoàn toàn phụ thuộc vào từ khóa được cung cấp. Trong khi, theo mong muốn

của con người, thì các truy vấn tương tự nhau về mặt ngữ nghĩa phải dẫn đến những kết quả

như nhau.

Do công cụ tìm kiếm chủ yếu chỉ so trùng, mà chưa “hiểu” được nội dung của thông tin chứa

trên WWW và nội dung của câu truy vấn, nên dẫn đến những hạn chế trên.

Như vậy, để làm tăng hiệu quả của quá trình tìm kiếm tự động, một hướng tiếp cận là làm cho

máy tính “hiểu” được nội dung của thông tin: thông tin được lưu trữ trên WWW và thông tin trong

câu truy vấn của người dùng.

1

Đề tài này quan tâm đến khía cạnh giúp cho máy tính hiểu được nội dung của câu truy vấn dùng

ngôn ngữ tự nhiên là tiếng Anh. Nhìn chung, việc hướng dẫn cho máy tính xử lý 1 câu truy vấn

bằng ngôn ngữ tự nhiên (bất kỳ) nhằm hiểu được ý nghĩa là khá phức tạp, có thể liệt kê ra một số

khó khăn:

 Ngữ pháp của ngôn ngữ tự nhiên rất đa dạng, cách sử dụng rất linh hoạt. Và một câu có thể

có nhiều ngữ pháp phù hợp (mặc dù đối với con người sẽ không có nghĩa). Dẫn đến không

thể chỉ dựa vào cấu trúc của câu để xác định ngữ nghĩa.

 Cùng một từ nhưng có thể ứng với nhiều từ loại (danh từ, động từ, ...). Muốn hiểu đúng phải

xác định đúng loại từ. Lấy ví dụ: “Time flies like an arrow”. “Time” và “flies” có ít nhất 2

cách hiểu có ý nghĩa: “Time” làm danh từ và “flies” làm động từ, hay “Time” làm động từ

và “flies” làm danh từ.

 Phải giải quyết sự đa hình của từ (morphology) nếu muốn nhận biết đầy đủ các thành phần

của câu. Ví dụ như động từ “fly” có thể có dạng “flies”, “flying”, “flew”.

 Việc xác định quan hệ ngữ nghĩa giữa các đối tượng trong câu đòi hỏi phải có tri thức về các

mối quan hệ phù hợp giữa các đối tượng. Và phải xem xét ngữ cảnh của câu để chọn ra quan

hệ phù hợp nhất.

 Câu có thể hàm chứa những mối quan hệ ngầm giữa các đối tượng, mà không được biểu

hiện ra bằng các từ ngữ biểu diễn quan hệ, vì các mối liên hệ này được con người ngầm thỏa

thuận trên một nền tảng kiến thức chung.

 Một cách thường xuyên, câu truy vấn bằng ngôn ngữ tự nhiên không chặt về ngữ pháp, mà

thường được dùng ở dạng thông dụng không “chuẩn” ngữ pháp.

Tuy có nhiều khó khăn như đã kể trên, nhưng hiện nay các nhóm nghiên cứu về lĩnh vực web

ngữ nghĩa đã đạt được những tiến bộ đáng kể. Và việc xây dựng một động cơ tìm kiếm theo ngữ

nghĩa là khả thi, có thể thành công với những câu truy vấn không quá phức tạp. Vì vậy, đề tài này sẽ

ứng dụng các thành tựu đó để xây dựng một động cơ tìm kiếm cho phép người dùng truy vấn bằng

ngôn ngữ tự nhiên, và trả về tài liệu chứa nội dung cần tìm.

2

1.2 Mục tiêu và phạm vi

Đề tài này sẽ xây dựng một hệ thống tìm kiếm dựa trên ngữ nghĩa. Dữ liệu đầu vào sẽ là một câu

truy vấn bằng tiếng Anh. Hệ thống, sau khi xử lý, sẽ trả về tài liệu chứa thông tin được tìm kiếm

hoặc trả về số liệu được yêu cầu (lúc này không sử dụng chức năng tìm kiếm mà chỉ đưa ra số liệu

trả lời). Đồng thời, để giúp người dùng kiểm tra liệu cách “hiểu” câu truy vấn của hệ thống có đúng

hay không, hệ thống cũng vẽ ra đồ thị ý niệm tương ứng với câu truy vấn đã nhận vào.

Một hệ thống như vậy nếu xây dựng mới hoàn toàn sẽ đòi hỏi rất nhiều thời gian và công sức.

Vì vậy, đề tài sẽ dựa trên hệ thống tìm kiếm ngữ nghĩa cho tiếng Việt (VN-KIM Search) có sẵn

[tham khảo anh Dũng], tái sử dụng nhiều mô-đun không phụ thuộc vào ngôn ngữ, như mô-dun chú

giả, đánh chỉ mục, gom cụm, truy xuất tài liệu, chỉ tập trung làm mới mô-dun xử lý câu truy vấn.

Hệ thống sẽ bảo đảm được khả năng xử lý những câu truy vấn tiếng Anh đơn giản, chỉ bao gồm

danh từ, động từ, từ để hỏi và giới từ. Ví dụ như câu truy vấn: “What actress starred in “The Lion in

Winter” ?”. Đây là khả năng mà hiện nay VN-KIM Search đã làm được cho tiếng Việt.

Luận văn không chỉ dừng lại ở những câu truy vấn đơn giản như ví dụ trên, mà còn nhắm đến

mục tiêu trả lời được những câu truy vấn phức tạp hơn. Đó là câu truy vấn có liên từ luận lý, tính từ

định tính, tính từ định lượng, tính từ so sánh nhất, và lượng từ. Lấy ví dụ như các câu truy vấn sau:

“Who was biographer and Samuel Johnsons's friend?” chứa liên từ luận lý.

“What famous model was married to Billy Joel?” chứa tính từ định tính.

“What is the oldest university in the US?” chứa tính từ định lượng.

“What is the highest dam in the U.S.?” và “What is the most common kind of skin cancer

in the U.S.?” chứa tính từ so sánh nhất.

“How many films did Ingmar Bergman make?” chứa lượng từ.

Hiện đã có nghiên cứu của nhóm VN-KIM để biên dịch những câu truy vấn dạng này từ ngôn

ngữ tự nhiên sang đồ thị ý niệm. Luận văn này sẽ ứng dụng thành quả nghiên cứu đó, đồng thời mở

3

rộng thêm một số khả năng khi xử lý những câu truy vấn dạng này. Đầu tiên là khả năng đề xuất đồ

thị ý niệm khả áp dụng ngay cả khi quan hệ với tính từ trong câu truy vấn không có trong cơ sơ tri

thức. Mục đích là làm ta có thể đánh giá tính chính xác của quá trình “hiểu” câu truy vấn của hệ

thống mà không bị quá lệ thuộc vào cơ sơ tri thức. Ví dụ như sau:

“What is the longest dam in the U.S.?” Mặc dù quan hệ giữ “dam” và “long” không có trong

cơ sơ tri thức, nhưng ta vẫn có thể cung cấp đồ thị ý niệm cho người dùng (với quan hệ “ảo” được

vẽ màu xanh lá).

Hình 1.1 Đồ thị có đề xuất quan hệ không tồn tại trong cơ sở tri thức

Ngoài ra, để truy xuất được tài liệu, thì chỉ ngừng lại ở đồ thị là chưa đủ, cần phải chuyển đồ thị

đó sang ngôn ngữ SeRQL, là ngôn ngữ dùng để truy xuất cơ sở tri thức ngữ nghĩa. Luận văn này sẽ

đề xuất cách thức chuyển từ đồ thị của những câu truy vấn dạng này sang truy vấn SeRQL để lấy về

thực thể (entity) cần tìm.

Luận văn cũng đề xuất cách xử lý câu truy vấn có chứa so sánh hơn của tính từ định lượng. Các

câu truy vấn có so sánh hơn với một hằng số, hoặc so sánh hơn với một thực thể, như “What dam in

the U.S. is higher than 1200 meters?”, “What dam is higher than Dworshak in the U.S.?” cũng sẽ

được chuyển sang đồ thị ý niệm, rồi chuyển sang câu truy vấn SeRQL tương ứng.

4

1.3 Cấu trúc luận văn

Chương 1 đã trình bày khái quát động cơ, mục đích, ý tưởng thực hiện đề tài. Tiếp theo sau

Chương 1 là phần trình bày chi tiết về ý tưởng và phương pháp của chúng tôi để đạt được mục đích

đã đề ra.

Chương 2 trình bày những nghiêu cứu và hệ thống liên quan đến việc chuyển đổi câu truy vấn

tiếng Anh sang đồ thị ý niệm. Mục 2.1 trình bày phương pháp rút trích quan hệ trong câu truy vấn.

Sơ lược giới thiệu về đồ thị ý niệm được trình bày ở Mục 2.2.

Chương 3 trình bày cách tiếp cận vấn đề với việc giải quyết câu truy vấn hỏi về số lượng được

trình bày tại Mục 3.1, giải quyết cho câu truy vấn có chứa tính từ được trình bày tại Mục 3.2, giải

quyết cho câu truy vấn có chứa tính từ so sánh nhất được trình bày tại Mục 3.3 và giải quyết cho

câu truy vấn có chứa liên từ luận lý sẽ được trình bày tại Mục 3.4.

Chương 4 trình bày phương pháp biên dịch câu truy vấn tiếng Anh sang đồ thị ý niệm. Mục 4.1

sẽ mô tả các bước trong giải thuật xây dựng đồ thị ý niệm cho câu truy vấn. Mục 4.2 trình bày chi

tiết về tập luật ánh xạ. Những kết quả đạt được của đề tài sẽ được tổng kết tại Mục 4.3.

Chương 5 trình bày chi tiết phương pháp lưu trữ và hiển thị đồ thị ý niệm.

Chương 6 đưa ra kết luận và đề nghị hướng phát triển cho tương lai. Phần phụ lục giới thiệu tập

câu hỏi mẫu TREC 2002, TREC 2007 cùng các đồ thị ý niệm đã được sinh đúng cho những câu truy

vấn rút ra từ hai tập câu hỏi mẫu này.

5

CHƯƠNG 2

KIẾN THỨC NỀN TẢNG

2.1 Rút trích quan hệ

Rút trích quan hệ là xác định mối quan hệ ngữ nghĩa giữa cặp các thành phần không có cấu trúc

hay bán cấu trúc trong văn bản ngôn ngữ tự nhiên. Rút trích quan hệ dựa vào Ontology liên quan tới

hai công việc chính: xác định mối quan hệ giữa hai thành phần đã biết chủ yếu dựa trên miền

Ontology và khám phá các mối quan hệ mới giữa hai ý niệm không có trên miền Ontology. Ví dụ

trong câu “Bill Gates is chairman and chief software architect of Microsoft Corporation”, tồn tại

quan hệ theo kiểu của ACE (Automatic Content Extraction) là EMPLOYMENT.exec giữa hai thực

thể có tên là “Bill Gates” thuộc lớp PERSON.Name và “Mircrosoft Corporation” thuộc lớp

ORGANIZATION.Commercial. Có nhiều kỹ thuật rút trích quan hệ, dựa trên luật (rule-based), dựa

trên đặc điểm (feature-based) và phương pháp kernel (kernel-based) dưới đây trình bày một số

nghiên cứu về rút trích quan hệ:

 Các phương pháp dựa trên luật sử dụng các luật của ngôn ngữ để nắm bắt các mẫu quan

hệ khác nhau. Hệ thống [8] rút trích quan hệ từ một quá trình phân tích cú pháp, do đó kết quả

của nó phụ thuộc hoàn toàn vào cây cú pháp.

 Các phương pháp rút trích dựa trên đặc điểm [21] sử dụng các đặc điểm của ngôn ngữ

như đặc điểm từ vựng, đặc điểm cú pháp và đặc điểm ngữ nghĩa. Những phương pháp này rất

hiệu quả cho việc rút trích quan hệ. Tuy nhiên, vấn đề gặp phải là các đặc điểm phải được mô

tả thủ công và cấu trúc thông tin trong cây cú pháp không được bảo toàn trong cây đặc điểm

(Là cây biểu diễn các đường nối không kết thúc giữa hai thực thể trong cây cú pháp).

 Các phương pháp dựa trên kernel chú trọng vào việc sử dụng các cây kernel riêng lẻ để

khai thác đặc điểm cấu trúc. Hệ thống [19] xây dựng một quan hệ kernel trên cây cú pháp cho

việc rút trích quan hệ. Kernel so trùng các node từ gốc cho tới lá một cách đệ quy theo từng lớp

từ trên xuống.

6

Tuy nhiên các nghiên cứu trên chỉ chú trọng vào rút trích quan hệ giữa các thực thể có tên đã

biết. Để xây dựng được đồ thị ý niệm, ngoài việc rút trích quan hệ giữa các thực thể có tên còn phải

rút trích quan hệ giữa các thực thể không tên với nhau, hay các quan hệ giữa các thực thể có tên với

thực thể không tên.

2.2 Đồ thị ý niệm (Conceptual Graph)

2.2.1 Sơ lược về đồ thị ý niệm

Đồ thị ý niệm là một hình thức biểu diễn logic (logical formalism) vừa có tính trực quan, vừa có

sự chính xác. Về hình thức, đây là một đồ thị tạo ra bởi các đỉnh và các cạnh (có thể có hướng hoặc

không có hướng). Nhờ sử dụng cách biểu diễn đồ họa trực quan đó, đồ thị cho phép con người

nhanh chóng có được một cái nhìn tổng quan, dễ nắm bắt ý nghĩa. Về nội dung, đồ thị ý niệm có thể

được ánh xạ trực tiếp sang logic vị từ (predicate logic). Nhờ đó, có thể biểu diễn ngữ nghĩa một cách

chính xác, giữ được tính chính xác về mặt logic. Với những đặc điểm đó, đồ thị ý niệm vừa dễ tiếp

cận đối với con người, vừa khả xử lý đối với máy tính.

Và đồ thị ý niệm đã được dùng như là một hình thức biểu diễn tri thức, là một ngôn ngữ trung

gian cho việc chuyển đổi qua lại giữa hình thức biểu diễn hướng máy tính và ngôn ngữ tự nhiên.

“Tim Berners Lee, người phát minh của WWW, kết luận rằng các CG có thể dễ dàng tích hợp với

Semantic Web. Nó cũng được chỉ ra trong là có một ánh xạ chặt giữa CG và ngôn ngữ RDF (ko

hiểu đoạn này >.<).” [tham khao HA].

“Trong bài báo đầu tiên công bố liên quan tới đồ thị ý niệm, Sowa đã định nghĩa đồ thị ý niệm

như sau: Chỗ này ta nghĩ chỉ cần nói: Sowa đã định nghĩa dtyn trong 1 bài báo của mình:… rồi trích

dẫn đoạn định nghĩa thôi

Đồ thị ý niệm là một đồ thị hữu hạn, liên thông, không có hướng, lưỡng phân với những nút

thuộc một loại được gọi là ý niệm (hoặc khái niệm – concepts) và những nút thuộc loại còn lại được

gọi là quan hệ khái niệm (conceptual relations).” [tham khao HA]

7

Như vậy, đồ thị ý niệm thuộc loại đồ thị phân đôi, và bao gồm 2 loại đỉnh: các đỉnh khái niệm và

các đỉnh quan hệ. Trong đó, các đỉnh khái niệm chỉ liên kết với các đỉnh quan hệ bởi các cạnh và

ngược lại.

Đỉnh khái niệm được biểu diễn bằng hình chữ nhật có nhãn là kiểu khái niệm kết hợp với tham

chiếu. Đỉnh quan hệ có hình oval với nhãn chính là kiểu quan hệ của nó. Mỗi đỉnh quan hệ có thể

liên kết với nhiều đỉnh khái niệm bằng các cạnh có hướng. Để ngắn gọn, chúng ta sẽ gọi đỉnh quan

FIELD: CS

IN

STUDENT: John

SUBJECT: *

STUDY

hệ, đỉnh khái niệm lần lượt là quan hệ, khái niệm.

[hình tham khảo CDT]

Hình trên là đồ thị ý niệm cho câu “John is a student. There is a subject. CS is a field of study.

The subject is in CS. John studies the subject”. Hoặc ngắn gọn hơn là “John studies a subject in

CS”. (Đoạn này nếu có thể ta nghĩ mình nên tìm một ví dụ khác tương tự, vì ngay cả ví dụ mà cũng

phải tham khảo có thể tạo cho người đọc cảm giác mình chưa hiểu kỹ về nó)

Trong định dạng văn bản, các khái niệm và các quan hệ có thể được biết trong dấu ngoặc vuông

và ngoặc tròn như sau:

[STUDENT: John]→(STUDY)→[SUBJECT: *]→(IN)→[FIELD: CS]

Trong ví dụ này, [STUDENT: John], [SUBJECT:*], [FIELD: CS] là các khái niệm với

STUDENT, SUBJECT và FIELD trở thành kiểu khái niệm, trong khi đó (STUDY) và (IN) là các

quan hệ với STUDY và IN là các kiểu quan hệ. Các tham khảo John và CS là các tham chiếu xác

định. Tham chiếu “*” là tham chiếu tổng quát ám chỉ tới một thực thể không xác định.

Đồ thị ý niệm được sử dụng để kiểm tra tính chính xác của quá trình dịch câu truy vấn trong đề

tài, bên cạnh các tham chiếu xác định và tham chiếu tổng quát, được bổ sung thêm tham chiếu nghi

vấn. Tham chiếu nghi vấn biểu diễn cho thực thể được truy vấn trong câu. Một đồ thị ý niệm truy

8

vấn là một đồ thị ý niệm mà các tham chiếu có thể là tham chiếu xác định, tham chiếu tổng quát

hoặc là tham chiếu nghi vấn được biểu diễn bằng dấu “?”.

2.2.2 Đồ thị ý niệm mở rộng

Đồ thị ý niệm mở rộng [tham khảo HA] là đồ thị ý niệm có sử dụng thêm một khái niệm đặc

biệt, gọi là đỉnh truy vấn con. Đó là một đỉnh khái niệm, nhưng có kiểu khái niệm riêng, và tham

chiếu đến thực thể của nó là một đồ thị ý niệm khác. Tức là, bên trong đỉnh truy vấn con là nội dung

một đồ thị ý niệm truy vấn tri thức. Đỉnh truy vấn con được biểu diễn bằng hình chữ nhật tròn góc

(Ta nghĩ chỗ này mình nên nói: trong tài liệu (hay luận văn) này, đỉnh truy vấn con được biểu diễn

bằng hình chữ nhật vát góc, vì các ví dụ sau này đâu phải tròn góc). Ta xét một ví dụ minh họa: ta

có câu truy vấn lồng nhau như sau: “Tìm tên của những giảng viên có tên trùng với tên của những

giảng viên tại trường Đại học Bách Khoa”. Câu truy vấn này sẽ được biểu diễn như sau:

[hình tham khảo HA]

Trong đề tài [tham khảo HA], đỉnh truy vấn con này được sử dụng phần lớn trong các phương

pháp đề xuất sẽ được bàn đến ở những phần tiếp theo.

9

2.3 Câu truy vấn SeRQL [tham khảo

http://www.openrdf.org/doc/sesame2/2.3.1/users/ch09.html #section-numerical-comparisons]

SeRQL (Sesame RDF Query Language) là một ngôn ngữ truy vấn cơ sở tri thức. Tương tự như

SQL được sử dụng làm ngôn ngữ truy vấn trên các cơ sở dữ liệu quan hệ, SeRQL được sử dụng trên

các cơ sở dữ liệu viết bằng ngôn ngữ RDF.

Trong SeRQL, có 2 loại câu truy vấn: một loại sẽ trả về một bảng các giá trị (một tập các ràng

buộc (binding) giữa biến với giá trị, tương tự như khi truy vấn với SQL), loại còn lại sẽ trả về một

đồ thị RDF (RDF graph). Trong đề tài này chỉ sử dụng loại thứ nhất, gọi là select queries (phiên bản

2.3.2), sẽ được trình bày sau đây.

Đối với 1 câu truy vấn thuộc loại select queries , sẽ có 8 mệnh đề có thể được sử dụng, đó là:

SELECT, FROM, FROM CONTEXT, WHERE, ORDER BY, LIMIT, OFFSET và USING

NAMESPACE. Chỉ có mệnh đề SELECT là bắt buộc, các mệnh đề còn lại có thể không có mặt

trong câu truy vấn. Các mệnh đề SELECT, FROM, WHERE và ORDER BY là những mệnh đề sẽ

được sử dụng để truy vấn trong đề tài này.

Mệnh đề SELECT ở SeRQL cũng tương tự như trong SQL, sẽ chỉ ra các biến mà ta cần trả về

giá trị. Nếu truy vấn thành công, tập kết quả trả về sẽ là các giá trị được ràng buộc với các biến liệt

kê trong mệnh đề SELECT. Ví dụ [tham khảo

SELECT O, S FROM {S} rdfs:label {O}

http://www.openrdf.org/doc/sesame2/2.3.1/users/ch09.html#section-numerical-comparisons]:

Mệnh đề FROM ở SeRQL cũng tương tự như trong SQL, nhưng, thay vì chỉ ra các bảng (table)

có chứa dữ liệu, người sẽ phải chỉ ra các biểu thức đường đi (path expression) có chứa dữ liệu trong

cơ sở tri thức RDF. Trong ví dụ trên, biểu thức đường đi là “{S} rdfs:label {O}” .

Mệnh đề WHERE, cũng tương tư như SQL, là nơi để người dùng đặc tả các ràng buộc mà các

biến phải thỏa mãn. Nếu có nhiều ràng buộc, chúng có thể được liên kết bằng các từ khóa AND,

OR, NOT, là các toán tử của đại số Bool.Trong mệnh đề WHERE, ta cũng có thể sử dụng câu truy

10

vấn lòng nhau (nested query) và sử dụng từ khóa ALL để biểu diễn ràng buộc đối với một tập giá

trị. Ví dụ [tham khảo http://www.openrdf.org/doc/sesame2/2.3.1/users/ch09.html#section-

SELECT highestValue FROM {node} ex:value {highestValue} WHERE highestValue >= ALL ( SELECT value

FROM {} ex:value {value}

)

numerical-comparisons]:

Để sắp xếp kết quả trả về theo một thứ tự nhất định, người dùng có thể sử dụng mệnh đề

ORDER BY, kết hợp các từ khóa DESC (giảm dần) và ASC (tăng dần – mặc định). Có thể kết hợp

sắp xếp trên nhiều biến trả về, cách nhau bởi dấu “,”. Ví dụ [tham khảo

SELECT Countr, Population FROM {Country} ex:population {Population} ORDER BY Population DESC

http://www.openrdf.org/doc/sesame2/2.3.1/users/ch09.html#section-numerical-comparisons]:

Ngoài ra, SeRQL cũng hỗ trợ 3 toán tử UNION, INTERSECT và MINUS để thực hiện kết hợp,

giao và loại trừ các tập kết quả. Ví dụ [tham khảo

SELECT title FROM {book} dc10:title {title}

UNION

SELECT title FROM {book} dc11:title {title}

http://www.openrdf.org/doc/sesame2/2.3.1/users/ch09.html#section-numerical-comparisons]:

Đề tài sẽ sử dụng các toán tử tập hợp này vào việc giải quyết các câu truy vấn có liên từ luận lý.

(Có nên nói thêm về Sesame, S-Lucene ko? Đề tài mình đụng đến mấy cái đó để lấy tài liệu,

nhưng mà mấy phần sau lại ko nhắc đến nên nói ở đây cũng hợp lý)

11

CHƯƠNG 3

PHÂN TÍCH VẤN ĐỀ VÀ PHƯƠNG PHÁP GIẢI

QUYẾT

3.1 Chuyển đổi câu truy vấn với từ để hỏi “How many”

Về cơ bản, chúng tôi thấy rằng việc biểu diễn các câu truy vấn hỏi về số lượng (Có từ hỏi là

“How many”) bằng đồ thị ý niệm đòi hỏi phải giải quyết được hai vấn đề sau:

 Thứ nhất, ta phải biểu diễn được phạm vi mà câu truy vấn muốn đề cập.

 Thứ hai, ta phải biểu diễn được đối tượng hay thuộc tính mà câu truy vấn muốn đề cập.

Thật vậy, lấy trường hợp của ví dụ trong Hình 2.2, nếu như PERSON có thêm thuộc tính về

salary, thì với biểu diễn như vậy ta không thể biết được câu truy vấn muốn hỏi độ trung bình về

tuổi, hay độ trung bình về lương.

Trong giải pháp đề nghị này, chúng tôi sẽ sử dụng đồ thị lồng nhau (nested CG), cụ thể là ở đây

chúng tôi sẽ sử dụng đỉnh truy vấn con để giải quyết vấn đề về biểu diễn phạm vi mà câu truy vấn

muốn bao phủ, và sử dụng liên kết đồng tham chiếu để biểu diễn đối tượng mà câu truy vấn muốn

đề cập.

Với giải pháp đề nghị, câu truy vấn “How many students are there in Computer Science

Department?” sẽ được biểu diễn như Hình 3.1.

12

Hình 3.0.1: Ví dụ về biểu diễn câu truy vấn "How many".

Để ngắn gọn, chúng tôi sẽ định nghĩa một đường liên kết mới thay thế đường liên kết đồng tham

chiếu cho việc biểu diễn đối tượng mà câu truy vấn muốn đề cập. Trong tài liệu này chúng tôi đề

xuất biểu diễn bằng đường liên kết nét đôi. Biểu diễn dạng ngắn gọn cho ví dụ trên như sau:

Hình 3.0.2: Ví dụ về biểu diễn câu truy vấn "How many" ở dạng rút gọn.

Sau đây là giải pháp đề xuất cho việc giải quyết mẫu câu truy vấn có từ để hỏi là “How many”.

Mẫu câu truy vấn này sẽ có dạng sau, với RW là từ quan hệ, S là chủ thể, O là khách thể:

How many S RW O

Đầu tiên, chúng ta sẽ xây dựng đỉnh truy vấn con để biểu diễn câu S RW O. Sau đó, chúng ta

định nghĩa quan hệ COUNT gắn với đỉnh truy vấn con vừa tạo. Một đường liên kết nét đôi sẽ được

nối từ quan hệ COUNT tới đỉnh khái niệm S trong đỉnh truy vấn con. Biểu diễn tổng quát cho mẫu

truy vấn “How many” như Hình 3.3

Hình 3.0.3: Ví dụ về biểu diễn tổng quát cho câu truy vấn "How many".

13

3.2 Chuyển đổi câu truy vấn có tính từ

Trong [16] đã đưa ra giải pháp sau để giải quyết vấn đề biểu diễn tính từ của thực thể. Ví dụ, để

trả lời câu truy vấn “What famous model was married to Billy Joel?” yêu cầu Ontology phải có khả

năng thể hiện thuộc tính famous của các người mẫu.

 Giải pháp 1: Định nghĩa lớp FAMOUSMODEL, ví dụ, đối với những người mẫu mà nổi

tiếng. Nó sẽ tạo ra nhiều lớp con của các người mẫu cho những độ khác nhau của thang đo độ

nổi tiếng.

 Giải pháp 2: Định nghĩa kiểu quan hệ FAMEPROPERTY có miền lớp là MODEL và

range lớp là STRING. Cách này gây ra vấn đề của việc so trùng các giá trị String sau đó.

Ở giải pháp thứ nhất nêu trên, ta thấy giải pháp này sẽ dẫn đến bùng nổ số lượng lớp mới phải

định nghĩa. Đặc biệt một vấn đề nảy sinh là việc đưa ra các thang đo để có thể định lượng được các

tính từ. Điều này chỉ có thể giải quyết được trong một số trường hợp đối với các tính từ như “tall”,

“high”… Ví dụ, ta có thể quy ước một ngôi nhà được gọi là cao khi kích thước chiều cao lớn hơn

100m. Tuy nhiên có những tính từ mà con người khó có thể định lượng được như là “good”,

“famous”… thì việc định nghĩa một thang đo cho những tính từ như vậy sẽ gặp nhiều khó khăn.

Ngoài ra, các tác giả trong [10], [11] đã nêu ra rằng các ý nghĩa của các tính từ còn phụ thuộc

vào ngữ cảnh. Ví dụ khi nói: “Peter is tall for a gymnast” thì ý nghĩa ở đây là Peter chỉ được xem là

cao trong ngữ cảnh so sánh với các vận động viên thể dục, còn đối với việc so sánh với người bình

thường thì điều này chưa hẳn đã đúng. Từ nhận xét này, các tác giả trong [10], [11] đã đề xuất giải

pháp khái niệm hóa các tính từ bằng phương pháp động. Các tác giả đề nghị xây dựng các lớp so

sánh để biểu diễn cho ngữ cảnh và sinh ra các quan hệ để biểu diễn độ tương quan về tính chất so

với lớp so sánh này.

Giải pháp thứ hai cho ta một cách mềm dẻo hơn khi biểu diễn các tính từ cho thuộc tính. Vấn đề

nảy sinh của cách thứ hai là việc so trùng giá trị String có thể được giải quyết bằng một từ điển các

từ đồng nghĩa, ví dụ như là WordNet. Tuy nhiên, với giải pháp này, ý nghĩa của các tính từ chỉ có

thể hiểu bởi con người, còn máy tính không thể suy luận được từ việc biểu diễn này. Ví dụ với cách

14

biểu diễn như vậy đối với những câu hỏi có dạng như: “Một ngôi nhà là cao hay không khi chiều

cao của nó lớn hơn 100m?” thì máy sẽ không đủ tri thức để đưa ra câu trả lời.

Từ việc phân tích trên ta thấy mỗi giải pháp đều có ưu, nhược điểm và khó có thể trả lời được

rằng giải pháp nào là tốt hơn giải pháp nào. Do đó trong tài liệu này, chúng tôi đề xuất cả hai giải

pháp để thể hiện các tính từ chỉ tính chất, thuộc tính của thực thể mà sẽ được trình bày ngay dưới

đây.

Mẫu câu chứa các tính từ chỉ tính chất, thuộc tính của thực thể sẽ có dạng sau, với S là chủ thể,

ADJ là tính từ, O là khách thể:

ADJ S RW O

Hoặc

S RW ADJ O

Phương pháp đề xuất cho mẫu câu truy vấn dạng này theo “Giải pháp 1” là định nghĩa kiểu

quan hệ HASPROPERTY gắn với thực thể ngay sau ADJ và range lớp là STRING. Các mẫu truy

vấn ở trên sẽ được biểu diễn thành:

[String: *] ← (HASPROPERTY) ← S → (RW) → O

Hoặc

S → (RW) → O → (HASPROPERTY) → [String: *]

Phương pháp đề xuất cho mẫu câu truy vấn dạng này theo “Giải pháp 2” là ứng với mỗi tính từ

ta sẽ định nghĩa lớp con của thực thể ngay sau ADJ mà có tính chất thỏa ADJ theo một độ đo nào

đó. Các mẫu truy vấn ở trên sẽ được biểu diễn thành:

S ← (SubclassOf) ←Sub_S → (RW) → O

Hoặc

S → (RW) → Sub_O → (SubclassOf) → O

Trong đề tài này, phương pháp tiếp cận đã sử dụng cả hai giải pháp nêu trên, trong đó “Giải

pháp 1” được sử dụng để biểu diễn các tính từ định lượng (tall, hight,…), còn “Giải pháp 2” được

sử dụng cho việc biểu diễn các tính từ định tính (famous, good,…).

15

Do đó, câu truy vấn với tính từ định tính “What famous model was married to Billy Joel” sẽ

được biển diễn như Hình 3.4 với lớp FAMOUS_MODEL là lớp con của lớp MODEL trong

Ontology.

Hình 3.4: Ví dụ về biểu diễn tính từ định tính.

Câu truy vấn với tính từ định lượng “How tall is Billy Joel” sẽ được biểu diễn tương ứng như

Hình 3.5.

Hình 3.5: Ví dụ về biểu diễn tính từ định lượng.

3.3 Chuyển đổi câu truy vấn có tính từ so sánh nhất

Đề tài sử dụng đồng thời hai phương pháp để biểu diễn tính từ. Việc chọn cách biểu diễn nào

trong từng trường hợp cụ thể tùy thuộc vào tính từ so sánh nhất cần được biểu diễn thuộc về tính từ

định tính hay định lượng.

Đối với tính từ so sánh nhất thuộc loại định lượng (Ví dụ: tallest, highest), việc giải quyết cho

câu truy vấn loại này cũng tương tự như hướng giải quyết cho loại truy vấn “How many” bằng việc

thay quan hệ COUNT thành quan hệ MIN, MAX tương ứng và đường liên kết sẽ chỉ tới tính từ định

lượng mà câu truy vấn cần đề cập.

Chúng tôi đề xuất giải pháp như sau: Mẫu câu truy vấn tổng quát cho dạng này sẽ có các trường

hợp như bên dưới, với ADJ_EST là cụm tính từ so sánh nhất (most adj, least adj, adjEST,…):

ADJ_EST S RW O

Hoặc

S RW ADJ_EST O

16

Đầu tiên, ta sẽ coi như không có mặt của ADJ_EST và biểu diễn câu S RW O thành một đỉnh

truy vấn con. Sau đó trong đỉnh truy vấn con vừa được tạo này, ta sẽ biểu diễn tính từ ở dạng

nguyên mẫu của ADJ_EST bằng phương pháp đã nêu trong Mục 3.1.2 của Chương 3.

Nhiệm vụ còn lại là định nghĩa quan hệ MIN, MAX chỉ tới đỉnh truy vấn con và một đường liên

kết nét đôi sẽ được nối từ quan hệ MIN, MAX tới biểu diễn tính từ nằm trong đỉnh truy vấn con.

Ví dụ câu truy vấn “What is the highest dam in the U.S.?” sẽ được biểu diễn như Hình 3.6:

Hình 3.6: Ví dụ về biểu diễn câu truy vấn có tính từ so sánh nhất định lượng.

Đối với tính từ so sánh nhất thuộc loại định tính, chúng tôi giải quyết tương tự như cho trường

hợp biểu diễn tính từ định lượng đã trình bày ở Mục 3.2, Chương 3. Theo đó, với câu truy vấn

“What the most famous model was married to Billy Joel?” sẽ được biểu diễn như Hình 3.7 với lớp

MOST_FAMOUS_MODEL là lớp con của lớp MODEL.

Hình 3.7: Ví dụ về biểu diễn câu truy vấn có tính từ so sánh nhất định tính.

3.4 Chuyển đổi câu truy vấn có tính từ

3.4.1 Trường hợp tính từ định tính

17

3.4.2 Trường hợp tính từ định lượng [tham khảo HA]

Với câu có “ADJ”, “S”, “O” lần lượt là tính từ định lượng, chủ từ và động từ, dạng :

ADJ S RW O

Hoặc

S RW ADJ O

Nghiên cứu [tham khảo HA] đề nghị thể hiện mối quan hệ giữa tính từ và thực thể như sau:

 Một quan hệ “hasProperty” sẽ biểu diễn cho tính từ “ADJ”.

 Miền (domain) chủ từ của quan hệ là lớp của thực thể đứng sau “ADJ”.

 Tầm vực (range) của quan hệ là lớp “String”.

Như vậy, khi đã xác định được tính từ và thực thể mà tính từ đi kèm, thì mối quan hệ giữa chúng

được biểu diễn dưới dạng:

[String: *] ← (hasProperty) ← S → (RW) → O

Hoặc

S → (RW) → O → (hasProperty) → [String: *]

Phương pháp này giúp ta có thể lưu trữ được “lượng” của một thuộc tính (định lượng) mà đối

tượng có, mà chưa cần quan tâm đến “độ đo” của thuộc tính đó. Thật vậy, công việc xác định độ

đo cho 1 tính từ khi áp dụng với từng loại thực thể có thể nói là phức tạp và khó làm chính xác.

Ví dụ: “What is the high dam in the U.S.?”, khó có thể xác định khi nào một “dam” là “high”,

chính xác nhất có lẽ là đi tìm chuẩn được quốc tế công nhận để một “dam” là “high”, nhưng

không phải đối tượng nào cũng có một chuẩn quốc tế khi xét đến tính chất “high”. Với phương

pháp trên, ta chỉ cần lưu trữ độ cao của các đối tượng “dam”, còn việc đặt ra chuẩn “high” sẽ là

do người dùng tự đưa ra để chọn những kết quả mong muốn. Nhờ vậy tiết kiệm được công sức,

và đơn giản được cách lưu trữ.

3.5 Chuyển đổi câu truy vấn có tính từ so sánh nhất

18

3.5.1 Trường hợp tính từ định tính

3.5.2 Trường hợp tính từ định lượng [tham khảo HA]

Với câu truy vấn có tính từ định lượng so sánh nhất (Ví dụ: tallest, highest), hướng giải quyết

tương tự như đã trình bày ở 3.3 (cho loại truy vấn “How many”), điểm khác biệt là thay quan hệ

“COUNT” thành quan hệ “MIN”, hoặc “MAX” tương ứng, và đường liên kết sẽ chỉ tới lớp “String”

trong quan hệ ứng với tính từ định lượng mà câu truy vấn cần đề cập.

Cụ thể như sau: xét dạng tổng quát cho câu truy vấn loại này như bên dưới, với “ADJ_EST” đại

diện cho cụm tính từ so sánh nhất (most adj, least adj, adjEST,…):

ADJ_EST S RW O

Hoặc

S RW ADJ_EST O

Đầu tiên, ta sẽ tìm dạng nguyên mẫu “ADJ” của “ADJ_EST” và biểu diễn câu truy vấn theo

phương pháp cho tính từ định lượng đã trình bày ở phần 3.4.2. Lúc này ta đã có được một đỉnh truy

vấn con.

Sau đó, ta xác định xem so sánh nhất của tính từ trong truy vấn là tương ứng với lấy “lượng” lớn

nhất hay lấy “lượng” nhỏ nhất. Ví dụ: “highest” tương ứng với lấy lượng lớn nhất, còn “lowest” sẽ

lấy lượng nhỏ nhất. Nếu là trường hợp đầu tiên thì quan hệ là “MAX”, ngược lại là “MIN”.

Nhiệm vụ còn lại là định nghĩa quan hệ “MAX”, “MIN” chỉ tới đỉnh truy vấn con và một đường

liên kết nét đôi sẽ được nối từ quan hệ này tới lớp “String” trong cách biểu diễn tính từ định lượng.

Ví dụ câu truy vấn “What is the highest dam in the U.S.?” sẽ được biểu diễn như sau:

[hình tham khảo HA]

19

3.6 Chuyển đổi câu truy vấn có tính từ định lượng so sánh hơn

Đề tài này mở rộng biểu diễn thêm một dạng nữa của tính từ định lượng, đó là dạng so sánh hơn.

Trong phần này sẽ đề xuất cách biểu diễn cho 2 dạng so sánh hơn: so sánh hơn với một hằng số, và

so sánh hơn với một thực thể có tên.

Đối với dạng so sánh hơn với một hằng số, mẫu câu tổng quát như sau, với “ADJ_ER” đại diện

cho cụm tính từ so sánh hơn (more adj than, less adj than, adjER than,…):

S RW ADJ_ER CONSTANT

Đầu tiên, ta sẽ biểu diễn mối quan hệ giữa “S” và “ADJ_ER” như 3.4.2. Phần “CONSTANTS”

sẽ được nhận biết như một giá trị thuộc lớp “String”. Sau đó, tùy theo tính từ nguyên gốc là gì, ta sẽ

xác định được quan hệ so sánh hơn là “isGreaterThan” hay “isSmallerThan” . Ví dụ: “higher” sẽ

tương ứng với “isGreaterThan”, còn “lower” sẽ tướng ứng với “isSmallerThan”. Cuối cùng là thêm

quan hệ này vào giữa lớp “String” trong mối quan hệ biểu diễn tính từ và hằng số. Biểu diễn có

dạng như sau:

S → (hasProperty) → [String: *] → (isGreaterThan) → [String: *]

Đối với dạng so sánh hơn với thực thể có tên, mẫu câu tổng quát như sau:

S RW ADJ_ER O

Để biểu diễn dạng này, ta sẽ tìm lần lượt 2 mối quan hệ thực thể - tính từ, đó là S – ADJ và O –

ADJ. Rồi biểu diễn 2 mối quan hệ này như ở 3.4.2. Sau đó, cũng xác định mối quan hệ so sánh là

“isGreaterThan” hay “isSmallerThan” tương tự như trên. Cuối cùng là liên kết 2 lớp “String” bằng

quan hệ này. Biểu diễn có dạng tổng quát sau:

S → (hasProperty) → [String: *] → (isGreaterThan)

S → (hasProperty) → [String: *]

20

CHƯƠNG 4

THIẾT KẾ

4.1 Các bước của giải thuật

Kết quả nghiên cứu của tác giả [18] đã đưa ra một phương pháp dịch câu truy vấn sang đồ thị ý

niệm không dựa vào phân tích cú pháp của câu truy vấn mà dựa trên thực thể cùng các mối liên hệ

giữa chúng. Phương pháp này có các ưu điểm sau:

 Có thể xây dựng đồ thị ý niệm cho các câu truy vấn có hình thức là một câu đầy đủ, hoặc

một đoạn câu. Phương pháp này cũng có thể xây dựng được đồ thị ý niệm cho các câu truy vấn

không đúng cú pháp.

 Dễ dàng chuyển đổi để thực hiện cho các câu truy vấn bằng các ngôn ngữ khác nhau khi

có một Ontology tương ứng.

 Mặc khác phương pháp này cũng rút ngắn thời gian so với phương pháp phân tích cú

pháp câu truy vấn.

Quá trình chuyển đổi câu truy vấn sang đồ thị ý niệm thực chất là quá trình tìm kiếm các thực

thể trong câu truy vấn và xây dựng mối quan hệ giữa chúng dựa vào Ontology. Ta xét câu truy vấn:

“Who is Peter’s son”, ta có Peter là một thực thể có tên thuộc lớp PERSON, son biểu diễn cho một

thực thể thuộc lớp SON, chúng ta gọi là thực thể không tên, và trên Ontology tồn tại quan hệ giữa

hai thực thể này là .

Trong đề tài này, phần hiện thực chương trình đã kế thừa lại hạt nhân xử lý từ kết quả nghiên

cứu của tác giả [18], đồng thời hiệu chỉnh và giải quyết thêm cho những truy vấn hỏi về số lượng,

những truy vấn có chứa tính từ, tính từ so sánh nhất và liên từ luận lý. Một lược đồ tổng quát được

trình bày tại Hình 4.1 với những bổ sung như sau:

21

Để giải quyết truy vấn hỏi về số lượng (“How many”), phương pháp tiếp cận đã hiệu chỉnh Bước

12 (Xây dựng đồ thị ý niệm).

Để giải quyết truy vấn có chứa tính từ và tính từ so sánh nhất, phương pháp tiếp cận đã thêm

Bước 4 (Nhận diện tính từ) và Bước 11 (Xác định quan hệ giữa tính từ và thực thể), đồng thời hiệu

chỉnh Bước 12 (Xây dựng đồ thị ý niệm).

Để giải quyết truy vấn có chứa liên từ luận lý, phương pháp tiếp cận đã thêm Bước 1 (Phân tách

câu truy vấn) và đồng thời hiệu chỉnh Bước 12 (Xây dựng đồ thị ý niệm).

Hình 4.0.1: Mô tả các bước dùng để xây dựng đồ thị ý niệm cho câu truy vấn.

22

Tiếp theo đây, chúng ta sẽ đi vào chi tiết từng bước của giải thuật.

4.1.1 Phân tách câu truy vấn

Bước này được sử dụng nhằm phân tách câu truy vấn có chứa liên từ luận lý AND, OR, NOT

thành các câu truy vấn nguyên tử (là truy vấn mà không có chứa liên từ luận lý trong câu). Như

chúng tôi đã phân tích tại Mục 3.1.4, Chương 3, những câu truy vấn có liên từ luận lý mà ta đang

xem xét là những câu truy vấn có dạng cấu trúc song song. Quá trình phân tách sẽ sử dụng liên từ

luận lý AND, OR, NOT làm từ phân tách. Từ kết quả của bước phân tách này, ta sẽ được một tập

các câu truy vấn nguyên tử.

4.1.2 Nhận biết thực thể có tên

Đề tài sử dụng GATE để nhận diện thực thể có tên dựa trên Ontology PROTON. Các thực thể

có tên là các thực thể xác định. Trên Ontology, các thực thể có tên sẽ có một ID xác định, thuộc về

một lớp xác định, có thông tin về thuộc tính và quan hệ của chúng với các thực thể khác. Ví dụ trên

PROTON, http://www.ontotext.com/kim/2005/04/wkb#Country là lớp của thực thể “Viet Nam” và

thực thể có tên này có ID xác định là http://www.ontotext.com/kim/2005/04/wkb#Country_T.VM.

Quá trình chú thích ngữ nghĩa bằng GATE cho ta kết quả là một tập các thực thể có tên, với các

thông tin về lớp ID của thực thể, lớp của thực thể và các thuộc tính cũng như các mối quan hệ của

thực thể. Các thực thể có tên được ký hiệu là IE.

4.1.3 Nhận biết thực thể không tên

Để xây dựng được đồ thị ý niệm, ngoài việc nhận diện các thực thể có tên, các thực thể không

tên cũng phải được nhận diện một cách đầy đủ và chính xác. Các thực thể không tên là các thực thể

không xác định và không tồn tại trên Ontology, tuy nhiên về mặt ngữ nghĩa, chúng có thể thuộc về

một lớp xác định nào đó trong Ontology, ví dụ các từ “person”, “son”, “father”, “mother”,… là các

thực thể không tên, và trên PROTON, http://www.ontotext.com/kim/2005/04/wkb#Person là lớp

biểu diễn cho các thực thể không tên này.

Công cụ ANNIE trong GATE có thể thực hiện chính xác việc nhận dạng các thực thể không tên.

ANNIE giúp ta tất cả các bước trong quá trình tìm kiếm, công việc của chúng ta là xây dựng một

23

danh sách tên các lớp trong Ontology và lưu vào một tập tin; sau đó, ta sẽ định nghĩa tên tập tin này

vào tập tin chỉ mục có tên là lists.def trong thư mục Gazetteer.

ANNIE cho ta tập các thực thể không tên, và thông tin về lớp của các thực thể không tên đó.

Các thực thể không tên được ký hiệu UE.

4.1.4 Nhận biết tính từ

Bước này nhận biết các tính từ trong câu truy vấn. Các tính từ được chia làm 3 loại:

 Tính từ định tính: famous, beautiful, …

 Tính từ định lượng: tall, hight, …

 Tính từ so sánh nhất: smallest, longest, …

Việc nhận diện tính từ cũng được thực hiện bằng công cụ ANNIE của GATE, điểm khác biệt là

chúng ta cần xây dựng danh sách (lập từ điển) các tính từ định lượng, danh sách các tính từ định

tính và danh sách các tính từ so sánh nhất và ánh xạ chúng vào Gazetteer.

4.1.5 Nhận biết từ quan hệ

Các từ quan hệ được xem là chìa khóa để xác định mối quan hệ giữa các thực thể trong câu truy

vấn. Các từ quan hệ là các giới từ, động từ như: in, on, of, live in, located in, has, is, are, …

Tương tự như nhận diện các thực thể không tên, việc nhận diện từ quan hệ cũng được thực hiện

bằng công cụ ANNIE của GATE, điểm khác biệt là chúng ta cần xây dựng danh sách các từ quan hệ

và ánh xạ chúng vào Gazetteer. Kết quả nhận biết từ quan hệ là tập các từ quan hệ có trong câu truy

vấn. Các từ quan hệ được ký hiệu là RW.

4.1.6 Xác định lớp của thực thể

Trong các câu hỏi bắt đầu bằng What, Who, Where, các từ để hỏi này được xem là một từ biểu

diễn cho một thực thể không tên và chưa xác định được lớp. Nhiệm vụ của bước này là xác định

chính xác lớp thực thể cho các từ để hỏi nêu trên.

24

Đề tài đề xuất phương pháp xác định lớp cho thực thể What như sau:

 Nếu đứng sau What là một thực thể không tên, thì lớp của What được xác định cũng

chính là lớp của thực thể không tên đó. Ví dụ trong câu “What country are Godiva chocolates

from?”, sau What là country, mà ta có country là biểu diễn của thực thể không tên thuộc lớp

COUNTRY, do đó lớp của What được xác định là COUNTRY.

 Ngược lại, nếu sau What không phải là thực thể không tên thì lớp của What được xác

định bởi thực thể có tên đầu tiên sau What và từ quan hệ cuối cùng trong câu. Ví dụ trong câu

“What does CNN stand for?”, CNN là một thực thể có tên thuộc lớp ORGANIZATION và

stand for biểu diễn cho quan hệ HASALIAS, do đó What được xác định là thuộc lớp ALIAS.

Đối với các câu hỏi bắt đầu bằng Who thì từ hỏi Who có thể được hiểu là một thực thể thuộc lớp

PERSON hoặc lớp ORGANIZATION. Bước này xác định lớp của Who dựa vào từ quan hệ và thực

thể đứng sau Who. Ta xét một ví dụ như sau: “Who provides telephone service in Orange County,

California?”, lớp của Who trong trường hợp này được xác định là ORGANIZATION.

4.1.7 Gom các thực thể

Ta xét câu truy vấn “Who are members of the board of the IMG?”, sau Bước 4.1.6 (Xác định lớp

của thực thể), chúng ta được hai thực thể không tên: Who, member thuộc lớp PERSON và một thực

thể có tên IMG thuộc lớp COMPANY. Trong đó Who và member chỉ về cùng một PERSON, là

member của IMG. Do đó, Who và member được gom lại thành một thực thể duy nhất.

Quá trình gom thực thể được thực hiện dựa vào heuristic. Hai thực thể trong câu truy vấn chỉ

được gom lại khi chúng thỏa mãn đồng thời các đặc điểm sau:

 Trong hai thực thể có ít nhất một thực thể không tên.

 Lớp của thực thể không tên là lớp cha của lớp của thực thể còn lại, xét trên miền

Ontology.

 Giữa hai thực thể là dấu phẩy hoặc các từ quan hệ đặc biệt: “is”, “are”, “was”, “were”.

25

4.1.8 Xác định quan hệ ẩn

Một số thực thể trong câu truy vấn đứng liền kề nhau nhưng không xuất hiện từ quan hệ nào ở

giữa chúng. Trong câu “What county is Modesto, California in?”, giữa thực thể Modesto thuộc lớp

CITY và thực thể California thuộc lớp PROVINCE tồn tại mối quan hệ SUBREGIONOF, tuy nhiên

giữa chúng không xuất hiện từ quan hệ nào. Bước này thực hiện việc thêm từ quan hệ cho các thực

thể đứng liền kề nhau hoặc cách nhau bởi dấu phẩy. Việc xác định từ quan hệ dựa vào lớp giữa hai

thực thể và loại quan hệ giữa hai lớp đó trên Ontology. Tuy nhiên trên Ontology, giữa hai lớp có thể

tồn tại nhiều loại quan hệ. Đề tài sắp xếp các loại quan hệ dựa trên mức độ chi tiết về lớp của loại

quan hệ. Quá trình xác định quan hệ ẩn giữa hai thực thể sẽ được tiến hành theo heuristic sau: Ta

liệt kê tất cả quan hệ có thể có giữa hai thực thể đó trong Ontology và chọn ra quan hệ chi tiết nhất.

Ví dụ trong câu truy vấn trên, giữa hai lớp CITY và lớp PROVINCE có thể tồn tại các loại quan hệ

PARTOF, LOCATEDIN và SUBREGIONOF. Trên Ontology PROTON, các loại quan hệ này được

định nghĩa như sau:

 Quan hệ PARTOF được định nghĩa là (ENTITY, PARTOF, ENTITY).

 Quan hệ LOCATEDIN là (ENTITY, LOCATEDIN, LOCATION).

 Quan hệ SUBREGIONOF là (LOCATION, SUBREGIONOF, LOCATION).

Tương ứng trên Ontology PROTON, lớp LOCATION là lớp con của lớp ENTITY. Do đó quan

hệ SUBREGIONOF là quan giữa hai lớp chi tiết nhất nên quan hệ này được chọn.

4.1.9 Xác định loại quan hệ giữa các thực thể

Đây là bước mà các cặp thực thể sẽ được liên kết với nhau bằng từ quan hệ, được gọi là một bộ

ba truy vấn .

Xem xét câu truy vấn “Where is the location of the Orange Bowl?”, từ quan hệ of nằm giữa hai

thực thể là location và Orange Bowl. Đối với câu truy vấn “What state is the Filenes store located

in?”, từ quan hệ in biểu diễn mối quan hệ LOCATEDIN giữa thực thể state và thực thể Filenes

store nằm ở sau thực thể Filenes store. Trong câu “In what country is Angkor Wat?” từ quan hệ in

nằm ở trước thực thể country dùng để biểu diễn mối quan hệ LOCATEDIN giữa thực thể country và

26

thực thể Angkor Wat. Như vậy, từ quan hệ dùng để biểu diễn mối quan hệ giữa hai thực thể có thể

nằm ở giữa, nằm ở sau hoặc nằm ở trước hai thực thể. Khi xem xét trên tập mẫu, từ quan hệ xuất

hiện nhiều nhất là ở giữa hai thực thể. Do đó, để hình thành nên các bộ ba truy vấn

quan hệ, thực thể>, độ ưu tiên sẽ là vị trí của từ quan hệ đối với vị trí của hai thực thể. Ưu tiên thứ

nhất là từ quan hệ nằm giữa hai thực thể, kế tiếp là từ quan hệ nằm sau hai thực thể và cuối cùng là

từ quan hệ sẽ nằm phía trước hai thực thể. Các bộ ba này sau đó sẽ được so trùng với Ontology để

xác định kiểu quan hệ tương ứng có trong Ontology.

Dựa vào các phân tích trên, đề tài đưa ra giải thuật xác định kiểu quan hệ giữa hai thực thể trong

câu truy vấn như sau (Hình 4.2):

Hình 4.0.2: Xác định loại quan hệ giữa hai thực thể ei và ej.

 Bước 1: Xét các từ quan hệ nằm giữa ei và ej. Bằng việc sử dụng tập luật, nếu có từ quan

hệ nào khi kết hợp với ei và ej xác định được kiểu quan hệ giữa ei và ej thì quá trình dừng,

ngược lại qua Bước 2.

 Bước 2: Xét các từ quan hệ nằm ở sau ei và ej, tương tự như Bước 1, nếu không xác định

được kiểu quan hệ giữa ei và ej thì qua Bước 3.

 Bước 3: Xét các từ quan hệ nằm trước ei và ej.

Bằng giải thuật trên, chúng ta xác định được kiểu quan hệ giữa hai thực thể ei và ej, nếu hai thực

thể ei và ej có mối quan hệ với nhau trong ngữ cảnh của câu truy vấn. Quá trình được áp dụng tương

tự cho tất cả các cặp thực thể trong câu truy vấn. Các loại quan hệ tìm được sẽ được thêm vào danh

sách quan hệ RELATION.

Việc xác định kiểu quan hệ được làm bằng cách ứng với mỗi bộ ba

thể> ta sẽ ánh xạ thành . Việc ánh xạ này được thực hiện qua giải

27

pháp lập từ điển (Tập luật) và heuristic. Quá trình ánh xạ được khái quát bằng lược đồ như ở Hình

4.3.

Hình 4.0.3: Lược đồ ánh xạ kiểu quan hệ của bộ ba truy vấn.

Chi tiết cho lược đồ tại Hình 4.3 được diễn dịch như sau:

 Xét mối quan hệ có dạng [C1, S1] – RW – [C2, S2] với:

o RW là từ quan hệ,

o C1 và C2 lần lượt là lớp của thực thể thứ nhất và thứ hai,

o S1 và S2 lần lượt là giá trị chuỗi ban đầu của thực thể thứ nhất và thứ hai.

 Ta sẽ lần lượt xây dựng các ánh xạ sau đây:

o Ánh xạ từ quan hệ RW thành quan hệ R1 - tập những quan hệ có thể tương ứng với từ

quan hệ RW. Ví dụ từ quan hệ “’s” tương ứng với tập các quan hệ {HASWIFE,

HASSON, HASCAPITAL, …}

28

o Ánh xạ từ quan hệ (C1, C2) thành quan hệ R2 - tập những quan hệ có thể có giữa C1

và C2. Ví dụ giữa hai lớp (PERSON, PERSON) ta có tập các quan hệ sau:

{HASWIFE, HASFATHER, HASMOTHER, …}

o Ánh xạ (S1, RW) thành R3 - tập những quan hệ có thể có nếu biết từ quan hệ RW và

giá trị chuỗi ban đầu S1. Ví dụ với (wife, ’s) sẽ được ánh xạ thành tập quan hệ

{HASWIFE}.

o Ánh xạ (RW, S2) thành R4 - tập những quan hệ có thể có nếu biết từ quan hệ RW và

giá trị chuỗi ban đầu S2. Ví dụ với (has, mother) sẽ được ánh xạ thành tập quan hệ

{HASMOTHER}

 Ta có thể dễ dàng nhận thấy R3, R4 đều là tập con của R2. Gọi R là mối quan hệ thật sự

của từ quan hệ RW. Chắc chắn R  R1  R2. Ngoài ra, trong một số trường hợp, có thể R  R1

 R3 hoặc R  R1  R4 hoặc R sẽ thuộc giao của cả bốn tập hợp trên. Như vậy, về lý thuyết ta

có thể xác định được quan hệ R nếu xây dựng đầy đủ cả bốn tập hợp trên.

 Việc xây dựng tập ánh xạ R3 và R4 được thực hiện bằng hệ thống luật. Chi tiết về hệ

thống luật sẽ được trình bày ở phần sau.

4.1.10

Xoá bỏ quan hệ không phù hợp

Sau Bước 4.1.9 (Xác định loại quan hệ giữa các thực thể), có một số quan hệ được xác định

nhưng không phù hợp với ngữ cảnh của câu truy vấn, các loại quan hệ này sẽ được xóa bỏ. Bước

này sử dụng các heuristic sau để xóa bỏ các quan hệ không phù hợp:

 Nếu hai thực thể Ei và Ei+1 cách nhau bởi dấu phẩy, thì Ei+1 chỉ quan hệ với Ei, các mối

quan hệ của Ei+1 với các thực thể khác sẽ bị xóa bỏ. Ví dụ trong câu “What's the population of

[CITY:Biloxi](POPULATIONCOUNT)[STRING:?]

[PROVINCE:Mississippi](POPULATIONCOUNT)[STRING:?]

[CITY:Biloxi](SUBREGIONOF)[PROVINCE:Mississippi]

Biloxi, Mississippi?”, tồn tại các quan hệ:

29

Hai thực thể Biloxi và Mississippi cách nhau bởi dấu phẩy, do đó quan hệ thứ hai được

xóa bỏ.

 Nếu Ei và Ei+1 đứng liền kề nhau, hoặc cách nhau bằng từ quan hệ “’s”, thì các quan hệ

của Ei với các thực thể trước nó sẽ bị xóa bỏ. Ví dụ, trong câu “What is the name of Neil

[PERSON:Neil Armstrong]( HASLABEL)[LABEL:?]

[PERSON:*](HASLABEL)[LABEL:?]

[PERSON:Neil Armstrong](HASWIFE)[PERSON:*]

Armstrong’s wife?” có các quan hệ:

Vì thực thể wife có quan hệ với thực thể Neil Armstrong bằng từ quan hệ ‘s. Do đó quan

hệ đầu tiên được xóa bỏ.

 Trong trường hợp một thực thể có quan hệ với nhiều thực thể đứng trước nó, thì chỉ giữ

lại mối quan hệ với thực thể không xác định đứng trước, gần nó nhất. Ví dụ, trong câu truy vấn

[COMPANY:Sea World](LOCATEDIN)[CITY:?]

[CITY:?](LOCATEDIN)[PROVINCE:Florida]

[COMPANY:Sea Word](LOCATEDIN)[PROVINCE:Florida]

“What city in Florida is Sea World in?” có ba loại quan hệ:

Quan hệ thứ hai bị xóa bỏ.

4.1.11

Xác định quan hệ giữa tính từ và thực thể

Tại bước này, ta sẽ xét các liên kết giữa tính từ và thực thể, được gọi là một bộ hai

thể>.

Xem xét câu truy vấn “What famous model was married to Billy Joel?”, tính từ famous nằm

trước thực thể model. Đối với câu truy vấn “Name a tiger that is extinct?”, tính từ extinct nằm sau

thực thể tiger. Như vậy, tính từ liên kết với một thực thể có thể nằm trước, hoặc nằm sau thực thể

đó. Khi xem xét trên tập mẫu, tính từ xuất hiện nhiều nhất là ở trước thực thể. Do đó, để hình thành

nên các bộ hai truy vấn , độ ưu tiên sẽ được quyết định dựa vào vị trí của tính từ

30

đối với vị trí của thực thể. Ưu tiên nhất là tính từ nằm trước thực thể, cuối cùng là tính từ nằm sau

thực thể. Các bộ hai sau đó sẽ được so trùng với Ontology để xác định kiểu quan

hệ tương ứng có trong Ontology.

Dựa vào các phân tích trên, đề tài đưa ra giải thuật xác định kiểu quan hệ giữa tính từ và thực

thể trong câu truy vấn như sau (Hình 4.4):

Hình 4.0.4: Xác định loại quan hệ giữa tính từ adj và thực thể.

 Bước 1: Xét các thực thể nằm sau tính từ adj. Bằng việc sử dụng tập luật, nếu có thực thể

ej nào khi kết hợp với adj mà xác định được kiểu quan hệ giữa adj và ej thì quá trình dừng,

ngược lại qua Bước 2.

 Bước 2: Xét các thực thể ei nằm ở trước adj.

Bằng giải thuật trên, chúng ta xác định được kiểu quan hệ giữa tính từ adj và e nếu giữa chúng

có mối quan hệ với nhau trong ngữ cảnh của câu truy vấn. Quá trình được áp dụng tương tự cho tất

cả các cặp tính từ, thực thể trong câu truy vấn. Các kiểu quan hệ tìm được sẽ được thêm vào danh

sách quan hệ RELATION.

Việc xác định kiểu quan hệ được làm bằng cách ứng với mỗi bộ hai ta sẽ ánh

xạ thành . Việc ánh xạ này cũng được thực hiện bằng giải pháp

lập từ điển (Tập luật) và heuristic, tương tự quá trình ánh xạ bộ ba

thành đã được trình bày tại Bước 4.1.9. Quá trình ánh xạ được

khái quát bằng lược đồ Hình 4.5.

31

Hình 4.0.5: Lược đồ ánh xạ kiểu quan hệ giữa tính từ và thực thể.

Chi tiết cho lược đồ tại Hình 4.5 được diễn dịch như sau:

 Xét mối quan hệ có dạng: [ADJ] – [E, S] với:

o ADJ là tính từ,

o E là lớp của thực thể liên kết với tính từ được xem xét.

o S là giá trị chuỗi ban đầu của thực thể E.

 Ta sẽ lần lượt xây dựng các ánh xạ sau đây:

o Ánh xạ tính từ ADJ thành tập R1 các bộ ba quan hệ

thể>. Ví dụ, tính từ famous tương ứng với tập các bộ ba quan hệ

{,

SUBCLASSOF, PERSON>, ,}

o Ánh xạ (ADJ, E) thành tập R2 các bộ ba quan hệ

có thể biểu diễn tính từ ADJ đối với thực thể E. Ví dụ, giữa tính từ famous và lớp

32

PERSON, ta có thể có các bộ ba sau: {

MODEL>, }

o Ánh xạ (ADJ, S) thành R3 - tập các bộ ba có thể có nếu biết tính từ ADJ và giá trị

chuỗi ban đầu S. Ví dụ, (famous, model) sẽ được ánh xạ thành tập quan hệ

{}

 Ta có thể dễ dàng nhận thấy R2, R3 đều là tập con của R1. Gọi R là mối quan hệ thật sự

biểu diễn bộ hai . Chắc chắn R  R1  R2  R3. Như vậy, về lý thuyết ta có

thể xác định được quan hệ R nếu xây dựng đầy đủ cả ba tập hợp trên.

 Việc xây dựng tập ánh xạ R1, R2 và R3 được thực hiện bằng hệ thống luật. Chúng ta sẽ đi

vào chi tiết về hệ thống luật này ở phần sau.

4.1.12

Xây dựng đồ thị ý niệm

Sau khi đã xác định được tất cả các quan hệ có trong câu truy vấn, bước này sẽ xây dựng đồ thị

ý niệm mô tả câu truy vấn. Như ta đã phân tích ở trên, để mở rộng giải quyết cho những truy vấn hỏi

về số lượng, truy vấn có tính từ, tính từ so sánh nhất, liên từ luận lý yêu cầu phải mở rộng CG.

Phương pháp tiếp cận đã kế thừa và đồng thời hiệu chỉnh lại Bước 12 (Xây dựng đồ thị ý niệm)

trong kết quả nghiên cứu của tác giả [18] để biểu diễn được những thành phần mới bổ sung của đồ

thị ý niệm mở rộng. Chúng ta sẽ đi vào chi tiết về cách lưu trữ và hiển thị đồ thị ý niệm ở phần tiếp

theo sau.

4.2 Tập luật

Như Mục 4.2.9 của Chương 4 đã phân tích, để xây dựng tập luật ánh xạ R3 và R4 ta cần phải xây

dựng một hệ thống luật tổng quát, sao cho ta có thể dễ dàng mô tả thêm các luật mới nhưng vẫn

không ảnh hưởng tới hệ thống. Như vậy nó sẽ làm cho hệ thống có tính tổng quát hơn, không bị bó

buộc trên tập luật xác định nào đó. Để đạt được mục tiêu trên, ta sẽ xây dựng tập luật theo định dạng

XML.

Mỗi luật trong hệ thống luật sẽ có dạng như sau:

33

“Nếu [điều kiện] thì [hành động]”

Trong đó phần điều kiện có những đặc tính sau:

 Có ràng buộc về tên lớp thực thể, giá trị chuỗi ban đầu và kiểu thực thể.

 Có thể xét một quan hệ hoặc nhiều quan hệ đồng thời.

Phần hành động có những đặc tính sau:

 Cho phép thay đổi các giá trị về tên lớp, thay đổi định danh thực thể và xác định loại

quan hệ.

 Xóa thực thể hoặc quan hệ.

Phần này trình bày cấu trúc của tập luật dùng để ánh xạ bộ ba quan hệ thành quan hệ ngữ nghĩa.

4.2.1 Cấu trúc của hệ thống luật

Hệ thống luật được định nghĩa trong một tập tin XML, trong đó mỗi thành phần (Element) sẽ

được mô tả theo định dạng DTD (Document Type Definition) như sau:

Thành phần root của tập tin là TransformRules, trong đó chứa nhiều thành phần rule.

Hình 4.0.6: Cấu trúc tập thành phần TransformRules và rule.

Từ khóa ELEMENT được dùng để mô tả cấu trúc của một thành phần; từ khóa ATTLIST được

dùng để mô tả các thuộc tính của một thành phần; CDATA mô tả kiểu dữ liệu chuỗi cho thuộc tính;

#REQUIRED dùng mô tả tính chất bắt buộc của thuộc tính; #IMPLIED dùng mô tả tính chất không

bắt buộc của thuộc tính. DTD dùng các ký hiệu “*”, “+” và “?” dùng để chỉ số lượng của một thành

phần trong thành phần cha của nó. Ý nghĩa của mỗi ký hiệu như sau:

34

 Dấu “*”: xuất hiện từ 0 đến n

 Dấu “+”: xuất hiện từ 1 đến n

 Dấu “?”: xuất hiện 0 hoặc 1

Định nghĩa thành phần TransformRules ở Hình 4.6, chỉ ra thành phần này có thể chứa nhiều

thành phần rule, thành phần rule chứa hai thành phần premiselist và consequentlist. Ngoài ra, thành

phần rule còn có hai thuộc tính là name và priority dùng để mô tả tên luật và độ ưu tiên của luật.

Chúng ta sẽ lần lượt tìm hiểu cấu trúc các thành phần con trong thành phần rule tiếp theo sau đây.

4.2.2 Cấu trúc thành phần điều kiện của luật

Mỗi luật bao gồm hai phần: điều kiện và hành động. Phần điều kiện của luật được mô tả bằng

thành phần premiselist, là con của thành phần rule. Thành phần premiselist bao gồm một hay nhiều

thành phần premise, Hình 4.7 mô tả cấu trúc của một thành phần premise. Mỗi thành phần premise

gồm có ba thành phần con là subject, relation và object tương ứng với một bộ ba mà ta đã thảo luận

ở phần trên. Ý nghĩa của các thuộc tính trong các thành phần này được thể hiện trong Bảng 4.1. Ví

dụ minh hoạ đặc tả thành phần premise có thể thấy tại Hình 4.8.

Tên thuộc tính Đặc tả

var Thuộc tính này dùng để đặt tên biến cho các thành phần, nhằm phân biệt các thành phần

value Giá trị chuỗi ban đầu của thực thể. Ta có thể liệt kê tập các giá trị trong đó các thành phần cách nhau bằng dấu phẩy.

className Thuộc tính ràng buộc tên lớp thực thể

classType Thuộc tính dùng để ràng buộc kiểu thực thể như UE, IE

Bảng 4.1: Bảng thuộc tính thành phần premise.

4.2.3 Cấu trúc thành phần hành động của luật

Nếu một bộ ba nào đó thỏa mãn thành phần điều kiện luật thì hành động luật consequent sẽ được

áp dụng cho bộ ba đó. Cấu trúc của thành phần hành động được mô tả như Hình 4.9.

35

Các thuộc tính của thành phần hành động cũng giống như phần tử điều kiện đã được mô tả trong

Bảng 4.2. Ngoài ra, thành phần hành động còn có hai thuộc tính mới là quantifier và delete, thuộc

tính quantifier dùng để gán giá trị định danh cho lớp, thuộc tính delete dùng để yêu cầu xóa thành

phần đó. Hình 4.11 là ví dụ minh họa đặc tả một luật hoàn chỉnh.

Hình 4.0.7: Cấu trúc của thành phần điều kiện luật.

Hình 4.0.8: Ví dụ về thành phần premise.

4.2.4 Xây dựng một số luật đặc biệt

Trong phần này ta sẽ xem xét một số trường hợp đặc biệt, các luật này được dùng cho bước gom

các thực thể có cùng ngữ nghĩa trong câu truy vấn. Ví dụ câu truy vấn “Who was the president of

Vichy France?”, các từ who và president đều biểu diễn cho thực thể không tên thuộc lớp PERSON,

và chúng cách nhau bởi từ quan hệ was. Do đó who và president được gom lại thành một thực thể

duy nhất. Luật đặc biệt cũng có cấu trúc như luật thường nhưng nó có độ ưu tiên là -1.

36

4.2.5 Xây dựng từ điển luật

Trong Ontology có rất nhiều quan hệ tương tự nhau như HASFATHER, HASMOTHER,

HASCHILD, HASSISTER… Nếu ta áp dụng cấu trúc tập luật như đã nêu để xây dựng cho từng

quan hệ này thì tập luật sinh rất giống nhau và rất dài dòng, nhiều thuộc tính ta không dùng tới.

Nhằm giúp cho quá trình đặc tả luật đơn giản hơn và tăng tốc trong quá trình xử lý, ta sẽ lập từ

điển cho những cấu trúc này. Chúng ta sẽ đi vào chi tiết cấu trúc của tập tin từ điển mà sẽ được trình

bày ngay sau đây.

Hình 4.0.9: Cấu trúc của thành phần hành động.

Tập tin từ điển cũng được xây dựng theo định dạng XML. Hình 4.12 mô tả một thể hiện của tập

tin từ điển. Trong cách thể hiện này, thành phần cao nhất của tập tin từ điển là dictionary, thành

phần dictionary bản thân nó sẽ chứa tập các entry, trong đó mỗi entry với các thuộc tính subjvalue,

relvalue, relation, dir sẽ thể hiện một luật. Các thuộc tính vừa nêu của thành phần entry sẽ được mô

tả chi tiết trong Bảng 4.2.

37

Hình 4.0.10: Cấu trúc từ điển quan hệ.

Hình 4.0.11: Ví dụ một luật hoàn chỉnh.

Tên thuộc tính

subjvalue relvalue objvalue relation

dir Đặc tả Giá trị chuỗi ban đầu của chủ thể Giá trị chuỗi ban đầu của quan hệ Giá trị chuỗi ban đầu của khách thể Quan hệ sẽ áp dụng cho bộ ba nếu thỏa điều kiện Xác định chiều quan hệ, “1” từ chủ thể đến khách thể, ngược lại có giá trị là 2

Bảng 4.2: Mô tả các thuộc tính của thành phần entry.

Hình 4.0.12: Ví dụ một số thành phần trong từ điển.

38

4.3 Kết quả thí nghiệm

Kết quả phương pháp đề nghị trong đề tài được tiến hành đánh giá trên các câu truy vấn của tập

dữ liệu mẫu TREC 2002 (Text REtrieval Conference).

TREC được tổ chức lần đầu tiên vào năm 1992 bởi viện NIST (National Institute of Standards

and Technology) và Bộ Quốc Phòng Mỹ. Mục tiêu của nó là hỗ trợ cho các nghiên cứu trong lĩnh

vực rút trích thông tin bằng việc cung cấp một nền tảng cần thiết cho việc đánh giá các phương pháp

rút trích thông tin [15]. TREC bao gồm nhiều lĩnh vực nghiên cứu rút trích thông tin khác nhau, gọi

là các track. Mỗi track được cung cấp một tập các dữ liệu, các bài toán mẫu để kiểm tra. Tùy vào

từng track, tập dữ liệu kiểm tra có thể là câu hỏi, đoạn văn, hoặc là các đặc điểm có thể rút trích.

Tập các câu hỏi mẫu được dùng trong đề tài lấy từ Question Answering Track của tập dữ liệu mẫu

TREC 2002. Mục tiêu của Question Answering Track là đạt được việc rút trích thông tin từ các văn

bản mẫu bằng việc trả lời các câu hỏi bằng ngôn ngữ tự nhiên.

Đề tài sử dụng 440 câu truy vấn về thực thể có tên của TREC 2002, bao gồm: 201 câu hỏi What;

3 câu hỏi Which; 62 câu hỏi Where; 67 câu hỏi Who; 45 câu hỏi When; 38 câu hỏi How và 24 câu

hỏi không bắt đầu bằng từ để hỏi.

Các lỗi khi dịch sang đồ thị ý niệm thuộc vào các trường hợp sau:

 Lỗi do quá trình nhận diện thực thể: GATE có thể không nhận diện được chính xác thực

thể có trong câu truy vấn. Lỗi dạng này được ký hiệu là R-Error.

 Lỗi do thiếu thực thể, thiếu lớp thực thể, cũng như thiếu quan hệ trên Ontology. Lỗi này

cũng bao gồm các câu truy vấn có quan hệ nhiều hơn hai ngôi. Lỗi này được ký hiệu là O-

Error. Ví dụ: “What year did Canada join the United Nations?”.

 Lỗi do đồ thị ý niệm thông thường không biểu diễn đầy đủ ngữ nghĩa của câu truy vấn

như là những câu truy vấn có chứa trạng từ, những câu truy vấn hỏi về kiểu quan hệ. Lỗi này

được ký hiệu là Q-Error. Ví dụ các câu: “At Christmas time, what is the traditional thing to do

under the mistletoe?”, “How was Teddy Roosevelt related to FDR?”.

39

 Lỗi do phương pháp xây dựng đồ thị ý niệm. Đó là mặc dù GATE nhận diện chính xác

thực thể, từ quan hệ và các quan hệ trong câu cũng tồn tại trên Ontology, nhưng đồ thị ý niệm

không xây dựng được hoặc xây dựng không chính xác. Các lỗi này có thể do xác định không

đúng lớp của thực thể chưa xác định lớp, lỗi do gom sai thực thể, lỗi do thêm từ quan hệ không

phù hợp hoặc lỗi do bước hiệu chỉnh quan hệ ngữ nghĩa. Các lỗi này được ký hiệu là M-Error.

Bảng 4.3 là thống kê kết quả thực nghiệm đã đạt được từ kết quả nghiên cứu của tác giả [18]. Số

truy vấn còn tồn đọng mà phương pháp của tác giả chưa giải quyết là 92 câu với các lỗi được phân

bố như sau:

R-Error M-Error Q-Error O-Error Chính xác Tổng cộng

Loại câu How many Tính từ Tính từ so sánh nhất Liên từ luận lý Loại khác Tổng cộng

0 0.00% 1 7 8 1.82% 12 6 14 1 2 35 7.95% 3 21 25 49 11.14% 0 0.00% 16 6 35 1 34 92 20.91% (%)

Bảng 4.3: Kết quả thực nghiệm trên TREC 2002 khi chưa áp dụng phương pháp đề nghị.

Sau khi áp dụng phương pháp đề nghị, cùng với bổ sung thêm 11 thực thể có tên, 20 thực thể

không tên, 5 từ quan hệ vào cơ sở tri thức, ta có kết quả như trình bày ở Bảng 4.4.

R-Error M-Error Q-Error O-Error Chính xác Tổng cộng

Loại câu How many Tính từ Tính từ so sánh nhất Liên từ luận lý Loại khác Tổng cộng

0 0.00% 1 3 4 0.91% 1 2 3 0.68% 7 4 22 26 59 13.41% 7 2 13 1 3 26 5.91% 16 6 35 1 34 92 20.91% (%)

Bảng 4.4: Kết quả thực nghiệm trên TREC 2002 sau khi áp dụng phương pháp đề nghị.

Từ bảng kết quả thực nghiệm trên, ta có nhận xét là sau khi áp dụng phương pháp đề nghị, số

lượng lỗi Q-Error giảm, tuy nhiên có bất thường là lỗi O-Error lại tăng lên. Điều này là do các truy

40

vấn lỗi Q-Error thực chất có bao hàm trong nó lỗi O-Error (do thiếu một số lớp và quan hệ trong

Ontology) hoặc lỗi M-Error (do phương pháp còn hạn chế chưa giải quyết được). Cho nên sau khi

áp dụng phương pháp đề nghị, một số truy vấn mặc dù đã được giải quyết lỗi thuộc về Q-Error

nhưng những lỗi thuộc về O-Error hoặc M-Error đã tồn tại từ trước nên vẫn còn tồn đọng và do đó

một số lượng lỗi Q-Error sẽ được phân loại lại thành lỗi O-Error hoặc lỗi M-Error. Đây là nguyên

nhân làm cho số lượng lỗi O-Error và M-Error sau khi áp dụng phương pháp đề nghị tăng lên.

Cuối cùng, sau khi bổ sung thêm 33 lớp thực thể, 23 quan hệ còn thiếu vào Ontology, ta có kết

quả như trình bày tại Bảng 4.5.

R-Error M-Error Q-Error O-Error Chính xác Tổng cộng

Loại câu How many Tính từ Tính từ so sánh nhất Liên từ luận lý Loại khác Tổng cộng

0 0.00% 1 3 4 0.91% 1 2 3 0.68% 3 21 20 44 10.00% 11 6 14 1 9 41 9.32% 16 6 35 1 34 92 20.91% (%)

Bảng 4.5: Kết quả thực nghiệm trên TREC 2002 sau khi làm giàu Ontology.

Trong 51 câu truy vấn không giải quyết được ta có 44 câu thuộc về lỗi O-Error, 3 câu thuộc về

lỗi Q-Error và 4 câu thuộc về lỗi M-Error.

Đối với 44 trường hợp lỗi O-Error, tất cả các câu truy vấn này đều thuộc về truy vấn chứa quan

hệ ba ngôi.

Trong 3 lỗi thuộc về Q-Error có 1 truy vấn mà nội dung truy vấn liên quan tới kiểu quan hệ chứ

không phải thực thể, chúng tôi tạm gọi đây là “Queried relation”, 1 câu truy vấn có trạng từ hoặc

nhân tố thời gian trong câu, chúng tôi tạm gọi những câu truy vấn loại này là “Adverb/Temporal

query”, 1 truy vấn có kiểu quan hệ ẩn trong danh từ chứ không phải động từ. Ta sẽ đi vào phân tích

chi tiết các trường hợp lỗi nêu trên.

Đối với lỗi “Queried relation”, ta xét câu truy vấn sau: “How was Teddy Roosevelt related to

FDR?”. Đối với câu truy vấn này, nội dung truy vấn sẽ chỉ vào quan hệ giữa thực thể Teddy

41

Roosevelt và thực thể FDR. Tuy nhiên phương pháp đề nghị trong đề tài chỉ hỗ trợ truy vấn các thực

thể không tên hoặc các thuộc tính của thực thể chứ chưa hỗ trợ truy vấn cho kiểu quan hệ. Điều này

là nguyên nhân dẫn đến lỗi “Queried relation”.

Để giải quyết các truy vấn “Queried relation”, phương pháp đề xuất mở rộng phạm vi biểu diễn

truy vấn mà cho phép truy vấn vào kiểu quan hệ. Ví dụ, với câu truy vấn trên, một biểu diễn đề nghị

sẽ có dạng như sau, trong đó tham chiếu nghi vấn (“?”) được đặt vào quan hệ Relation:

Hình 4.0.13: Ví dụ về biểu diễn câu truy vấn “Queried relation”.

Tiếp theo ta tiến hành phân tích lỗi “Adverb/Temporal query”, ta xét câu truy vấn sau: “At

Christmas time, what is the traditional thing to do under the mistletoe?”. Đối với câu truy vấn này,

ngữ cảnh của câu truy vấn sẽ bị giới hạn bởi nội dung của trạng từ “At Christmas time”. Để giải

quyết được các lỗi “Adverb/Temporal query”, phương pháp đề nghị cần phải hỗ trợ được khả năng

biểu diễn được trạng từ trong câu truy vấn, các ràng buộc về ngữ cảnh của câu truy vấn. Ví dụ, với

câu truy vấn trên, một biểu diễn đề nghị sẽ có dạng như sau:

Hình 4.0.14: Ví dụ về biểu diễn câu truy vấn “Advert / Temporal”.

Ta xét câu truy vấn có quan hệ là một danh từ, mà không phải động từ như sau: “How many

highway miles to the gallon can you get with the Ford Fiesta?”. Ta thấy trong câu truy vấn này,

danh từ “gallon” trong câu là nhân tố để xác định được thuộc tính số mile mà thực thể Ford Fiesta

đi được trong một gallon nguyên liệu. Như ta đã phân tích, phương pháp đề nghị trong luận văn này

chỉ dùng các từ quan hệ (động từ, giới từ) làm chiếc cầu nối để xác định kiểu quan hệ trong câu truy

42

vấn. Do đó để có thể giải quyết câu truy vấn lỗi thuộc loại này, phương pháp đề nghị cần phải mở

rộng từ quan hệ bao hàm luôn cả các danh từ.

Đối với các lỗi về M-Error, nguyên nhân là do phương pháp không thể phân biệt được chính xác

từ quan hệ và thực thể đối với một số từ vựng tiếng Anh. Thật vậy, ta xét câu truy vấn sau: “How

many home runs did Babe Ruth hit in his lifetime?”. Trong câu truy vấn này, mô đun chú giải không

thể phân biệt được “hit” là một động từ hay một danh từ, do đó dẫn đến chú giải sai: từ quan hệ trở

thành thực thể hoặc ngược lại. Một giải pháp có thể để khắc phục lỗi này đó là ta có thể dùng thêm

các mô đun nhận dạng từ loại (động từ, danh từ, tính từ,…), ví dụ như Wordnet, SynTag, để hỗ trợ

thêm thông tin cho mô đun chú giải đưa ra chú giải chính xác hơn. Đối với ví dụ như trên, mô đun

nhận dạng từ loại sẽ cho biết “hit” là một động từ, do đó mô đun chú giải có thể biết được trong

trường hợp này “hit” cần được chú giải là từ quan hệ chứ không phải là một thực thể.

Theo kết quả trên, nếu không xét đến các lỗi O-Error và Q-Error, độ chính xác của phương

pháp đã được cải thiện thêm 9.32% so với kết quả nghiên cứu của tác giả [18].

Ngoài ra, phương pháp đề nghị trong luận văn này tương thích và không gây nhiễu các kết quả

đã đạt được từ nghiên cứu [18]. Điều này có nghĩa là cùng với 41 câu truy vấn đã được giải quyết

như trong các bản báo cáo vừa nêu, tất cả 348 câu truy vấn đã được giải quyết bởi tác giả [18] vẫn

giữ nguyên giá trị. Ta có tổng kết kết quả đạt được của phương pháp đề nghị đối với toàn bộ tập câu

hỏi mẫu TREC 2002 được trình bày tại Bảng 4.6.

R-Error M-Error Q-Error O-Error Chính xác Tổng cộng

Loại câu How many Tính từ Tính từ so sánh nhất Liên từ luận lý Loại khác Tổng cộng

0 0.00% 1 3 4 0.91% 1 2 3 0.68% 3 21 20 44 10.00% 11 6 14 1 357 389 88.41% 16 6 35 1 382 440 100.00% (%)

Bảng 4.6: Bảng tổng kết kết quả cuối cùng đạt được trên tập TREC 2002.

Bảng báo cáo 4.6 chỉ ra độ chính xác của phương pháp đối với tập câu hỏi mẫu TREC 2002 thu

được là 88.41%.

43

Phương pháp đề nghị trong đề tài cũng được áp dụng cho một tập mẫu khác, là tập TREC 2007.

Tập câu truy vấn TREC 2007, bao gồm 173 câu hỏi What; 15 câu hỏi Which; 13 câu hỏi Where; 57

câu hỏi Who; 13 câu hỏi When; 56 câu hỏi How và 118 câu hỏi không bắt đầu bằng từ để hỏi. Bảng

4.7 là kết quả thực nghiệm đã đạt được từ kết quả nghiên cứu của tác giả [18] trên tập TREC 2007.

R-Error M-Error Q-Error O-Error Chính xác Tổng cộng

Loại câu How many Tính từ Tính từ so sánh nhất Liên từ luận lý Loại khác Tổng cộng

0 0.00% 2 2 0.45% 47 5 6 7 3 68 15.28% 16 16 1 70 103 23.15% 0 0.00% 63 5 22 8 75 173 38.88% (%)

Bảng 4.7: Kết quả thực nghiệm trên TREC 2007 khi chưa áp dụng phương pháp đề nghị.

Sau khi áp dụng phương pháp đề nghị, cùng với bổ sung thêm 14 thực thể có tên, 57 thực thể

không tên, 17 từ quan hệ vào cơ sở tri thức, ta có kết quả như trình bày ở Bảng 4.8.

Cuối cùng, sau khi bổ sung thêm 64 lớp thực thể, 36 quan hệ còn thiếu vào Ontology, ta có kết

quả như trình bày tại Bảng 4.9.

R-Error M-Error Q-Error O-Error Chính xác Tổng cộng

Loại câu How many Tính từ Tính từ so sánh nhất Liên từ luận lý Loại khác Tổng cộng

0 0.00% 3 3 0.67% 12 3 15 3.37% 35 4 19 2 67 127 28.54% 16 1 3 3 5 28 6.29% 63 5 22 8 75 173 38.88% (%)

Bảng 4.8: Kết quả thực nghiệm trên TREC 2007 sau khi áp dụng phương pháp đề nghị.

Trong 108 câu truy vấn không giải quyết được ta có 89 câu thuộc về lỗi O-Error, 15 câu thuộc

về lỗi Q-Error và 3 câu thuộc về lỗi M-Error.

44

Trong 15 lỗi thuộc về Q-Error có 1 truy vấn “Queried relation”, 1 câu truy vấn

“Adverb/Temporal query”, 2 truy vấn phụ thuộc vào ngữ cảnh, nghĩa là các đối tượng được truy vấn

không xác định được tại câu truy vấn mà nó thuộc về một câu khác, chúng tôi tạm gọi là “Context

query”, và 10 câu truy vấn phức tạp mà phương pháp không giải quyết được. Đối với các lỗi

“Queried relation” và “Adverb/Temporal query”, ta đã phân tích ở kết quả thực nghiệm của TREC

2002, ta sẽ chỉ phân tích vào lỗi mới xuất hiện trên TREC 2007 đó là “Context query”.

R-Error M-Error Q-Error O-Error Chính xác Tổng cộng

Loại câu How many Tính từ Tính từ so sánh nhất Liên từ luận lý Loại khác Tổng cộng

0 0.00% 3 3 0.67% 12 3 15 3.37% 16 1 16 1 56 89 20.00% 35 4 6 4 16 66 14.83% 63 5 22 8 75 173 38.88% (%)

Bảng 4.9: Kết quả thực nghiệm trên TREC 2007 sau khi làm giàu Ontology.

Ta xét một câu truy vấn “Context query” như sau: “What was the previous world record time?”.

Ta thấy câu truy vấn chỉ chứa một thực thể duy nhất là “word record time” và ta thiếu thông tin để

biết thực thể “word record time” trong câu truy vấn đang nói về vấn đề gì. Để có đầy đủ thông tin

cần thiết, yêu cầu phải cung cấp ngữ cảnh, trong trường hợp này là những câu hay đoạn văn có nội

dung liên quan với câu hỏi. Vấn đề này đòi hỏi phương pháp phải có cơ chế để liên kết các thực thể

trong câu truy vấn đối với các thực thể thích hợp trong ngữ cảnh. Đây là một vấn đề khó, cần phải

có những nghiên cứu sâu hơn.

Những lỗi thuộc về M-Error cũng có cùng nguyên nhân do phương pháp không phân biệt được

từ quan hệ và thực thể đối với một số từ vựng tiếng Anh như chúng tôi đã phân tích ở trường hợp

kết quả thực nghiệm trên tập TREC 2002.

Theo kết quả thực nghiệm, nếu không xét đến các lỗi O-Error và Q-Error, độ chính xác của

phương pháp đã được cải thiện thêm 14.61% so với kết quả nghiên cứu của tác giả [18].

Cũng như đối với tập câu hỏi mẫu TREC 2002, phương pháp đề nghị trong luận văn cũng tương

thích và không gây nhiễu các kết quả đã đạt được từ nghiên cứu [18] khi thử nghiệm trên tập câu hỏi

45

mẫu TREC 2007. Cùng với 66 câu truy vấn đã được giải quyết như trong các bản báo cáo vừa nêu,

tất cả 272 câu truy vấn đã được giải quyết bởi tác giả [18] vẫn giữ nguyên giá trị. Bảng 4.10 là bảng

tổng kết kết quả đạt được của phương pháp đề nghị đối với toàn bộ tập câu hỏi mẫu TREC 2007. Độ

chính xác của phương pháp đối với tập câu hỏi mẫu TREC 2002 thu được sẽ là 75.96%.

R-Error M-Error Q-Error O-Error Chính xác Tổng cộng

Loại câu How many Tính từ Tính từ so sánh nhất Liên từ luận lý Loại khác Tổng cộng

0 0.00% 3 3 0.67% 12 3 15 3.37% 16 1 16 1 56 89 20.00% 35 4 6 4 289 338 75.96% 63 5 22 8 348 446 100% (%)

Bảng 4.10: Bảng tổng kết kết quả cuối cùng đạt được trên tập TREC 2007.

Sau khi xem xét tổng thể kết quả thực nghiệm trên hai tập mẫu TREC 2002, TREC 2007 ta thấy

phương pháp đề nghị chỉ còn hạn chế chủ yếu đối với các truy vấn có quan hệ nhiều hơn 3 ngôi.

Nguyên nhân của các lỗi này là do tính không đầy đủ của Ontology. Một trong những giải pháp có

thể có để giải quyết cho vấn đề này đã được đề cập tại Mục 1.2, Chương 1 và chúng tôi đã nêu ra

thành một bài toán khác mà trong phạm vi của đề tài chúng tôi sẽ không giải quyết.

46

CHƯƠNG 5

HIỆN THỰC HỆ THỐNG

5.1 Các khối xử lý và giao diện các lớp quan trọng

5.1.1 Ứng dụng web phía Client

Ứng dụng web phía client được hiện thực dưới dạng JSP. Người dùng cung cấp đầu vào, gửi yêu

cầu cho server và nhận trả lời từ server. Người dùng có thể sử dụng 1 trong 3 dịch vụ:

 Câu truy vấn ngôn ngữ tự nhiên.

 Tìm kiếm mở rộng.

 Lựa chọn thực thể thỏa truy vấn để tìm tài liệu.

Ứng dụng client sử dụng các dịch vụ chính sau:

Kiểu trả Tên dịch vụ Đặc tả

về

String parse(String query) Trả về đồ thị ý niệm từ câu truy vấn tiếng Việt

Web service operation

String lucene(String query) Trả về các thực thể thỏa truy vấn

Web service operation

String getDocuments(String Trả về các tài liệu thỏa truy vấn dựa trên API query của

query) Semantic Lucene

Web service operation

47

5.1.2 Hệ thống xử lý trên server

Dưới đây trình bày giao diện của một số lớp chính trong các khối: Khối nhận diện thực thể và từ quan hệ: Lớp ENSearch Kiểu trả về Tên phương thức Đặc tả

String

GetAnnotation (String query, QueryBuffer output)

String Kết nối vào KIM để nhận diện thực thể có tên trong câu query, chèn vào bộ đệm output. Dùng Gate để nhận diện thực thể không tên và từ quan hệ, tính từ, liện từ luận lý có trong câu query, chèn vào bộ đệm output Trả về namespace của lớp truyền vào dưới dạng chuỗi getNS (String classname)

String runSeRQL (String query) Kết nối vào KB của KIM, thực thi câu lệnh SeRQL để tìm các thực thể thỏa mãn truy vấn

Khối phân tách câu truy vấn nguyên tử:

Lớp QuerytoCG

Tên phương thức Đặc tả

Kiểu trả về void

splitQueryToAtomicQuery(String fullQuery, List query, List result, RelationType defaultRel)

Tách câu truy vấn có AND, OR, NOT (đã được nhận diện thành phần) thành danh sách các câu truy vấn nguyên tử. Danh sách này là tham số “result”

48

Khối xác định quan hệ đỉnh:

Lớp QuerytoCG

Đặc tả Kiểu trả về TopRelationType Tên phương thức identifyTopRel(QueryBuffer buf) Nhận diện quan hê đỉnh là “COUNT”, “MAX”, “MIN”, “MOST”, hayt “AVERAGE”

Khối hiệu chỉnh tập thực thể và từ quan hệ:

Lớp ProcessingXML

Kiểu trả về Tên phương thức Đặc tả

FindClassofAgent(QueryBuffer buffer) Xác định lớp của “What” void

CombineEntitys(QueryBuffer buffer) Gom các thực thể cùng ngữ nghĩa void

AddRealtion(QueryBuffer buffer) Thêm từ quan hệ giữa các thực thể void

Khối xác định quan hệ ngữ nghĩa giữa thực thể và từ quan hệ:

Lớp ProcessingQuery

Kiểu trả về Tên phương thức Đặc tả

QueryTriple ProcessQuery2Triple(QueryBu ffer buffer)

TripleType Sử dụng các thực thể có tên, không tên, từ quan hệ đã nhận biết được để sinh ra các bộ ba quan hệ. Giá trị trả về là các tập các bộ ba quan hệ. Tìm bộ 3 bằng cách kiểm tra tập luật CheckRE(ItemType subject, ItemType relation, ItemType object)

49

TripleType Tìm bộ 3 bằng phương pháp giao InterRE(ItemType subject, ItemType relation, ItemType object)

Khối xác định quan hệ ngữ nghĩa giữa tính từ và thực thể:

Lớp ProcessingQuery

Kiểu trả về Tên phương thức Đặc tả

void

processQuantitativeAdjective( QueryTriple tripleset, QueryBuffer buffer)

void

processQuanlitativeAdjective( QueryTriple tripleset, QueryBuffer buffer)

Sử dụng các tính từ định lượng (thường, so sánh nhất, so sánh hơn) đã nhận biết được để sinh ra các bộ ba quan hệ. Tập các bộ ba quan hệ kết quả là “tripleset” Sử dụng các tính từ định lượng (thường, so sánh nhất) đã nhận biết được để sinh ra các bộ ba quan hệ. Tập các bộ ba quan hệ kết quả là “tripleset

Khối xây dựng đồ thị ý niệm:

Lớp QueryOutput

Kiểu trả về Tên phương thức Đặc tả

String generatelistJsCG(ListCG lsCG) Tạo đồ thị cho toàn bộ câu truy

vấn dưới dạng JavaScript

String Tạo đồ thị con dưới dạng JavaScript

generateJsCG(QueryBuffer buffer, int currentleft, int currentTop, boolean isCoverByBox)

50

Khối sinh câu truy vấn SeRQL

Lớp SeRQLMapping

Tên phương thức Đặc tả

Kiểu trả về String getSeRQLQuery(QueryBuffer buffer) Sinh ra câu SeRQL cho từng câu truy vấn nguyên tử. Trả về dưới dạng String.

Lớp QuerytoCG

Tên phương thức Đặc tả

Kiểu trả về String appendWhereClauseForSQTA(String query, QueryBuffer buf, TopRelationType topRe)

String appendOrderByClause(String query, QueryBuffer buf)

String appendWhereClauseForCQTA(String query, QueryBuffer buf)

Thêm các phần cần thiết vào câu SeRQL truyền vào để xử lý trường hợp có tính từ định lượng so sánh nhất. Trả về câu SeRQL đã được chỉnh sửa Thêm các phần cần thiết vào câu SeRQL truyền vào để xử lý trường hợp có tính từ định lượng ở dạng nguyên mẫu. Trả về câu SeRQL đã được chỉnh sửa Thêm các phần cần thiết vào câu SeRQL truyền vào để xử lý trường hợp có tính từ định lượng so sánh hơn. Trả về câu SeRQL đã được chỉnh sửa

5.2 Hệ thống luật [tham khảo CDT]

Ta sẽ xây dựng tập luật theo định dạng XML.

Dạng chung của mỗi luật trong hệ thống luật như sau:

“Nếu [điều kiện] thì [hành động]”

Trong đó, vế điều kiện có những đặc điểm sau:

51

 Có ràng buộc về tên lớp, giá trị chuỗi ban đầu và kiểu thực thể.

 Có thể xét nhiều quan hệ đồng thời trong cùng một luật.

Phần hành động có những đặc tính sau:

 Có thể thay đổi tên lớp, thay đổi định của danh thực thể và xác định loại quan hệ.

 Xóa thực thể hoặc quan hệ khỏi buffer.

Các phần sau trình bày cấu trúc của tập luật dùng để ánh xạ bộ ba quan hệ thành quan hệ ngữ

nghĩa.

5.2.1 Cấu trúc của hệ thống luật

Hệ thống luật được định nghĩa trong một tập tin XML, và mô tả theo định dạng DTD

(Document Type Definition) như sau:

Thành phần gốc (root element) của tập tin là TransformRules, mỗi TransformRules chứa nhiều

thành phần (element) rule.

[hình tham khảo HA]

Trong ví dụ trên, từ khóa ELEMENT được dùng để khai báo cấu trúc của một thành phần; từ khóa

ATTLIST được dùng để mô tả các thuộc tính của một thành phần; CDATA mô tả kiểu dữ liệu

chuỗi cho thuộc tính; #REQUIRED dùng mô tả tính chất bắt buộc của thuộc tính; #IMPLIED dùng

mô tả tính chất không bắt buộc của thuộc tính. DTD dùng các ký hiệu “*”, “+” và “?” dùng để chỉ

số lượng của một thành phần con trong thành phần cha của nó. Ý nghĩa của mỗi ký hiệu như sau:

 Dấu “*”: xuất hiện từ 0 đến n

 Dấu “+”: xuất hiện từ 1 đến n

 Dấu “?”: xuất hiện 0 hoặc 1

52

Theo định nghĩa trên, TransformRules có thể chứa nhiều thành phần rule, mỗi rule chứa hai

thành phần là premiselist và consequentlist. Ngoài ra, thành phần rule còn có thuộc tính là name và

priority, lần lượt để mô tả tên luật và độ ưu tiên của luật. Cấu trúc các thành phần con trong thành

phần rule sẽ được mô tả rõ hơn theo sau đây.

5.2.2 Cấu trúc thành phần điều kiện của luật

Như đã được nhắc đến ở đầu chương này, mỗi luật bao gồm hai phần: điều kiện và hành động.

Phần điều kiện của luật được mô tả bằng thành phần premiselist, là con của thành phần rule. Mỗi

premiselist bao gồm một hay nhiều thành phần premise, hình dưới mô tả cấu trúc của một thành

phần premise. Mỗi premise gồm có 3 thành phần con là subject, relation và object tương ứng với

một bộ ba mà ta đã thảo luận ở phần trên. Ý nghĩa của các thuộc tính trong các thành phần này được

thể hiện trong hình dưới:

[hình tham khảo HA]

Tên thuộc tính Đặc tả

var Thuộc tính này dùng để đặt tên biến cho các thành phần, nhằm phân biệt các thành phần

value Giá trị chuỗi ban đầu của thực thể. Ta có thể liệt kê tập các giá trị trong đó các thành phần cách nhau bằng dấu phẩy.

53

className Thuộc tính ràng buộc tên lớp thực thể

classType Thuộc tính dùng để ràng buộc kiểu thực thể như UE, IE

5.2.3 Cấu trúc thành phần hành động của luật

Nếu một bộ ba nào đó thỏa mãn thành phần điều kiện, thì phần hành động consequent sẽ được

áp dụng cho bộ ba đó. Cấu trúc của thành phần hành động được mô tả như dưới.

Các thuộc tính của thành phần hành động cũng giống như phần tử điều kiện đã được mô tả trong

bảng ở phần 5.2.2. Ngoài ra, thành phần hành động còn có hai thuộc tính mới là quantifier và delete,

thuộc tính quantifier dùng để gán giá trị định danh cho lớp, thuộc tính delete dùng để yêu cầu xóa

thành phần đó.

[hình tham khảo HA]

Hình sau đây là ví dụ minh họa đặc tả một luật hoàn chỉnh:

54

[hình tham khảo HA]

5.2.4 Xây dựng một số luật đặc biệt

Ngoài ra, ta sẽ cần một số luật đặc biệt, các luật này được dùng cho bước gom các thực thể có

cùng ngữ nghĩa trong câu truy vấn. Ví dụ câu truy vấn “Who was the president of Vichy France?”,

các từ who và president đều biểu diễn cho thực thể không tên thuộc lớp PERSON, và chúng cách

nhau bởi từ quan hệ was. Do đó who và president được gom lại thành một thực thể duy nhất. Luật

đặc biệt cũng có cấu trúc như luật thường nhưng nó có độ ưu tiên là -1.

5.3 Lưu trữ đồ thị và hiển thị đồ thị [tham khảo HA]

Trước khi hiển thị kết quả ra màn hình, chương trình dùng cấu trúc dữ liệu như sau để lưu trữ đồ

thị ý niệm trong bộ nhớ:

55

[hình tham khảo HA]

Cấu trúc dữ liệu trên sẽ gồm một mảng các phần tử. Mỗi phần tử có vùng lưu trữ Sub-CG chứa

đựng thông tin để xây dựng đồ thị ý niệm nguyên tử (atomic conceptual graph), là đồ thị ý niệm mà

không chứa liên từ luận lý trong câu truy vấn. “Các thông tin để xây dựng đồ thị ý niệm nguyên tử

bao gồm thông tin về thực thể, kiểu quan hệ giữa các thực thể và chiều của quan hệ. Dữ liệu được

lưu trong vùng lưu trữ Sub-CG sau đó sẽ được dùng để biểu diễn thành một đỉnh truy vấn con.”

Mỗi phần tử có thuộc tính Next relation lưu trữ kiểu quan hệ giữa hai đỉnh truy vấn con liền

nhau. Các giá trị có thể có của Next relation chính là kiểu quan hệ có thể có giữa hai đỉnh truy vấn

con trong câu truy vấn có liên từ luận lý, cụ thể là UNION, INTERSECT, MINUS.

“Thêm vào đó, cấu trúc dữ liệu có một thuộc tính Top relation để lưu trữ quan hệ gộp của câu

truy vấn. Đó có thể là quan hệ COUNT đối với câu truy vấn có từ để hỏi là “How many”, hoặc quan

hệ MIN, MAX đối với các truy vấn có tính từ so sánh nhất.”

Từ cấu trúc dữ liệu nêu trên. Đồ thị ý niệm được hiển thị ra màn hình có dạng tổng quát như

hình sau:

56

[hình tham khảo HA]

“Trong đó, mỗi đỉnh truy vấn con được xây dựng từ vùng lưu trữ Sub-CG của mỗi thành phần

trong cấu trúc lưu trữ. Quan hệ giữa các đỉnh truy vấn con (UNION, INTERSECT, MINUS) được

xây dựng từ thuộc tính Next relation. Quan hệ gộp (COUNT, MAX, MIN) được xây dựng từ thuộc

tính Top relation của cấu trúc lưu trữ. Đường liên kết nét đôi sẽ được nối từ quan hệ gộp vừa tạo tới

thực thể câu truy vấn về số lượng trong trường hợp truy vấn “How many” hoặc nối tới biểu diễn tính

từ nằm trong đỉnh truy vấn con tương ứng trong trường hợp câu truy vấn có chứa tính từ so sánh

nhất.”

Lấy một ví dụ cho phương pháp lưu trữ và hiển thị như phân tích nêu trên: câu truy vấn “Who

was biographer and Samuel Johnsons's friend?”, hệ thống sẽ kết xuất ra đồ thị ý niệm như ví dụ

sau:

57

[hình tham khảo HA]

5.4 Xây dựng câu truy vấn SeRQL

Dù đồ thị ý niệm là một ngôn ngữ vừa dễ hiểu với con người, vừa khả xử lý với máy tính, nhưng

đồ thị ý niệm mới chỉ mang tính chất tham khảo, để kiểm tra sự chính xác của quá trình xử lý câu

truy vấn. Bởi vì, đồ thị ý niệm chưa được sử dụng làm ngôn ngữ truy vấn trên bất cứ cơ sở dữ liệu

ngữ nghĩa nào, nên máy tính không thể trực tiếp dùng đồ thị để tìm thực thể hay tài liệu. Vì vậy,

trong chương này sẽ trình bày phương pháp dịch đồ thị sang ngôn ngữ SeRQL, là ngôn ngữ truy vấn

sử dụng bởi cơ sở tri thức ngữ nghĩa.

Một phần trong quá trình sinh câu SeRQL của hệ thống sẽ sử dụng lại giải thuật trước đây của

VN-KIM Search [tham khảo Dũng], chỉ thêm vào những đoạn cần thiết để những câu truy vấn có

tính từ.

Giải thuật đã có của VN-KIM Search như sau:

58

Generalize the query CG

For each relation in the generalized query CG do

{

Get all neighbour concepts of the current relation

//process each concept sequentially

For each concept do

{

if the concept is new //i.e. not processed before

{

if the concept referent is “?” or “*”

{

if the concept referent is “?”

{

Assign to it a variable starting with “x” //e.g x1, x2, x3,...

Assign to it a label variable starting with “z” //e.g z1, z2, z3,...

Append these variables to the SELECT clause

Append the “rdfs:label” statement for this concept to the FROM clause

}

if the concept referent is “*”

{

Assign to it a variable starting with “y” //e.g y1, y2, y3,...

}

Append the “rdf:type” statement for this concept to the FROM clause

Append the constrained property statements for this concept to the FROM clause

Assign to the constrained properties variables starting with “p” //e.g p1, p2, p3,...

Append the property constraints to the WHERE clause

} //end of “?” or “*”

if the concept referent is specific, assign to it its identifier as a dummy variable

Remember this concept having been processed

}

}//end of if new

59

Assign to the current relation its URI

Append the statement for the current relation with its neighbour concepts to the FROM clause

}

//process the disconnected concept nodes

For each concepts that has not been visited yet, process it as above

[hình tham khảo Dũng]

Giải thuật đề tài này thêm vào để xử lý tính từ sẽ nhận kết quả của giải thuật trên làm đầu vào,

rồi thêm những bộ phận cần thiết:

Giải thuật cho tính từ bình thường (dạng nguyên mẫu): Truy vấn tất cả thực thể phù hợp và trả

về theo một trật tự

//Function: append ORDER BY clause for normal adjective to the input SeRQL

Initialize new ORDER BY clause

For each semantic relation generated from normal adjective

{

Append the its object’ variable to SELECT clause

Identify the way of ordering //i.e DESC or ASC. Use a dictionary (XML file)

Append to ORDER BY clause the variable of the relation’s object, and the way it is ordered

}

Giải thuật cho tính từ so sánh nhất:

//Function: append WHERE clause for superlative adjective to the input SeRQL

Initialize the WHERE, nested SELECT and nested FROM clause

//select the value of all other entities which are also qualified, then use “>= ALL” or “<= ALL” to //find the entity that has the maximum and minimum value

60

Identify whether “>= ALL” or “<=ALL” from the Top relation. Call this OP.

Find the relation that is generated from superlative adjective

{

With its subject, create a new variable representing all others qualified entities. Call this the temporary subject. Then use the temporary subject to append all constraints on the subject to the nested FROM clause

With its object, create a new variable representing all others qualified entities’ values. Call this the temporary object. Append the temporary object to the nested SELECT clause.

Append the statement of this relation to the nested FROM clause. But use the temporary subject and temporary object as the 2 variables.

Append to WHERE clause the object’s variable and the OP identified before.

}

Giải thuật cho tính từ so sánh hơn:

//Function: append WHERE clause for comparative adjective to the input SeRQL

Initialize the WHERE clause

For every relation generated from comparative adjective

{

Append its subject’s variable to the WHERE clause

Identify the comparative operator //i.e. “>” or “<”. Use a dictionary (XML file)

Append comparative operator to the WHERE clause

if its object is a named entity, append its object’s variable to the WHERE clause

else if its object is a constant, append its object’s quantifier to the WHERE clause

}

61

CHƯƠNG 6

KẾT LUẬN

Đề tài đã kế thừa những ưu điểm của phương pháp dịch câu truy vấn bằng ngôn ngữ tự nhiên

sang đồ thị ý niệm với hướng tiếp cận ít phụ thuộc cú pháp mà chỉ dựa vào thực thể cùng các quan

hệ giữa các thực thể này trên Ontology của tác giả [18]:

 Không dựa vào văn phạm của câu truy vấn. Có thể dịch sang đồ thị ý niệm cho một câu

truy vấn đầy đủ, các câu truy vấn có từ để hỏi, hoặc một đoạn câu. Thứ tự xuất hiện các thực

thể và từ quan hệ trong câu là không quan trọng. Do đó phương pháp này cũng có thể dịch sang

đồ thị ý niệm cho các câu sai văn phạm.

 Dễ dàng thực hiện cho ngôn ngữ khác khi có Ontology tương ứng. Phương pháp này

không dựa trên phân tích cú pháp của câu truy vấn. Do đó, để dịch sang đồ thị ý niệm cho các

câu truy vấn bằng các ngôn ngữ khác chỉ cần xây dựng một Ontology tương ứng và xây dựng

danh sách các thực thể không tên và danh sách các từ quan hệ tương ứng trên ngôn ngữ đó.

 Phần tập luật và từ điển của hệ thống được hiện thực theo cấu trúc tổng quát định dạng

XML, ta có thể dễ dàng mở rộng thêm luật cho hệ thống khi cần thiết mà không cần phải thay

đổi hệ thống.

 Đồ thị ý niệm được trình bày một cách trực quan dưới dạng đồ họa.

Bên cạnh đó, đề tài đã góp phần mở rộng giải quyết thêm những vấn đề còn hạn chế trong kết

quả nghiên cứu của tác giả Cao Duy Trường [18] cho việc dịch các câu truy vấn hỏi về số lượng,

các câu truy vấn có tính từ, tính từ so sánh nhất, liên từ luận lý.

Vấn đề chuyển đổi câu truy vấn sang đồ thị ý niệm là vấn đề phức tạp, do đó chắc chắn hệ thống

cũng không tránh khỏi những khuyết điểm, vì vậy đề tài nêu ra những hạn chế đồng thời cũng là

phương hướng phát triển tiếp theo:

62

 Có một số quan hệ phức tạp, là các quan hệ có ba ngôi, bằng đồ thị ý niệm đơn giản

không thể thể hiện được đầy đủ ý nghĩa của các quan hệ đó, do đó cần nghiên cứu phương

pháp biểu diễn các quan hệ này trên Ontology cũng như dùng đồ thị ý niệm lồng nhau để biểu

diễn các quan hệ này.

 Đề tài còn hạn chế chưa giải quyết được những truy vấn hỏi vào kiểu quan hệ, những

truy vấn có chứa trạng từ. Như đã được trình bày ở phần trên, mặc dù đề tài đã đề xuất hướng

giải quyết cho những truy vấn loại này, tuy nhiên cần có những nghiên cứu thêm để giải quyết

triệt để hơn.

 Ngoài ra, đề tài mới chỉ dừng lại ở việc giải quyết liên từ luận lý NOT giữa các mệnh đề,

nhưng chưa giải quyết triệt để khi liên từ luận lý NOT tác động vào tính từ, cần có những

nghiên cứu thêm về vấn đề này.

63

TÀI LIỆU THAM KHẢO

[1] Barriere, Caroline: From a children's first dictionary to a lexical knowledge base

of conceptual graphs. Thesis (Ph.D.). Simon Fraser University (1997).

[2]

Bernstein, A., Kaufmann, E.: How Useful are Natural Language Interfaces to the Semantic Web for Casual End-Users. In: Proceedings of the 6th International

Symantic Web Conference (ISWC 2007). Busan, Korea (2007).

[3] Cimiano, P., Haase, P., Heizmann, J.: Porting Natural Language Interfaces

between Domains -- An Experimental User Study with the ORAKEL System. In:

Proceedings of the International Conference on Intelligent User Interfaces (2007)

180 – 189.

[4] Frithjof Dau, Joachim Hereth Correia, Technische Universität Darmstadt,

Fachbereich Mathematik: Nested Concept Graphs with Cuts: Mathematical Foundations. In: Proceedings of the 3rd International Conference (2004).

[5] Hai H. Vo: Truy vấn tri thức bằng đồ thị khái niệm. Master Thesis. Faculty of

Computer Science and Engineering, University of Technology. VietNam (2006).

[6] Hensman, S.: Construction of Conceptual Graph representation of texts. In:

Preceedings of Student Research Workshop. HLT-NAACL, Boston (2004) 49 –

54.

[7] Kaufmann, E., Bernstein, A., Fischer, L.: NLP-Reduce: A "Naïve” but Domain-

Independent Natural Language Interface for Querying Ontologies. Demo-Paper at the 4th European Semantic Web Conference (2007) 1 – 2.

64

[8] Miller S., Fox H., Ranshaw L., Weischedel R.: A novel use of statistical parsing

to extract information from text. NAACL (2000).

[9] Sowa, J. F.: Conceptual graphs for a database interface. IBM Journal of

Research and Development, Vol.20, No.4 (1976) 336 – 357.

[10] Steffen Staab, Udo Hahn: Conceptualizing adjectives. In: Proceedings of the 21st

Annual German Conference. (1997).

[11]

Steffen Staab, Udo Hahn: “TALL”, “GOOD”, “HIGH”--- Compared to what? In: Proceedings of the 15th International Conference on Artificial Intelligence.

Nagoya, Japan (1997).

[12] Tablan, V., Damljanovic, D., Bontcheva, K: A Natural Language Query Interface to Structured Information. In: Proceedings of the 5th European Semantic Web

Conference. Lecture Notes in Artificial Intelligence, Vol. 5021. Springer -Verlag

(2008) 361 – 375.

[13] Tim Berners-Lee: Conceptual Graphs and the Semantic Web. Available at:

http://www.w3.org/DesignIssues/CG.html (2001).

[14] Thang L. Tran: Dịch câu truy vấn bằng ngôn ngữ tự nhiên sang đồ thị khái niệm.

Master Thesis. Faculty of Computer Science and Engineering, University of

Technology. VietNam (2007).

[15] The Text REtrieval Conference website. http://trec.nist.gov/overview.html.

65

[16] Tru H. Cao, Truong D. Cao, Thang L. Tran: A robust Ontology-Based Method for

Translating Natural Language Queries to Conceptual Graphs. In: Proceedings of the 3rd Asian Semantic Web Conference (2008).

[17] Tru H. Cao.: VN-KIM for VietNamese semantic Web. Faculty of Computer

Science and Engineering, University of Technology. VietNam (2006).

[18] Truong D. Cao: Dịch câu truy vấn tiếng Anh sang đồ thị khái niệm: cách tiếp cận

ít phụ thuộc vào cú pháp. Master Thesis. Faculty of Computer Science and

Engineering, University of Technology. VietNam (2008).

[19] Zelenko, D., Aone, C. and Richardella, A.: Kernel Methods for Relation

Extraction, Journal of Machine Learning Research. (2003) 1083 – 1106.

[20] Zhang, L., Yu, Y.: Learning to generate CGs from domain specific. In: Proceedings of the 9th International Conference on Conceptual Structures, LNAI

2120. Stanford, CA, USA (2001).

[21] Zhou, G.D., Su, J., Zhang, J., Zhang M.: Exploring Various Knowledge in

Relation Extraction. In: Proceedings of ACL (2005).

66

PHỤ LỤC 1: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT

Thuật ngữ tiếng Việt Bộ ba Dàn phân cấp Định danh tài nguyên thống nhất Đồ thị phân đôi Đồ thị ý niệm Đồ thị ý niệm thực Đồ thị ý niệm cú pháp Đồng tham chiếu Độ mịn Kiểu khái niệm Kiểu quan hệ Khái niệm Quan hệ Tham chiếu Thuộc tính Văn phạm liên kết Thuật ngữ tiếng Anh Triple Hierarchy lattice Uniform resource identifier Bipartile graph Conceptual graph Real conceptual graph Syntactic conceptual graph Co-reference Granularity Conceptual type Relation type Concept Relation Reference Property Link grammar Viết tắt URI CG

67

PHỤ LỤC A: TẬP CÂU MẪU TREC 2002

1. What actor first portrayed James Bond?O 2. What actress starred in "The Lion in Winter"? 3. What American composer wrote the music for "West

Side Story"?

53. What is Betsy Ross famous for? 54. What is Black Hills, South Dakota most famous for? 55. What is California's capital? 56. What is California's state tree? 57. What is “Chiricahua” the name of? 58. What is Dick Clark's birthday? 59. What is Dr. Ruth's last name? 60. What is Hawaii's state flower? 61. What is Martin Luther King Jr.'s real birthday? 62. What is one of the cities that the University of Minnesota

is located in?

63. What

the abbreviation for Original Equipment

is Manufacturer?

64. What is the airport code for Los Angeles International? 65. What is the average speed of the horses at the Kentucky

Derby?

66. What is the average weight of a Yellow Labrador? 67. What is the birthstone for June? 68. What is the capital of Burkina Faso? 69. What is the capital of Haiti? 70. What is the capital of Mongolia? 71. What is the capital of Yugoslavia? 72. What is the depth of the Nile river? 73. What is the distance in miles from the earth to the sun? 74. What is the electrical output in Madrid, Spain? 75. What is the exchange rate between England and the

U.S.?

4. What are Cushman and Wakefield known for? 5. What are John C. Calhoun and Henry Clay known as? 6. What are the names of Jacques Cousteau's two sons?O 7. What are the two houses of the Legislative branch?O 8. What body of water are the Canary Islands in? 9. What card company sells Christmas ornaments? 10. What caused the Lynmouth floods? 11. What city did the Flintstones live in? 12. What city in Florida is Sea World in? 13. What city is 94.5 KDGE Radio located in? 14. What city is Massachusetts General Hospital located in? 15. What city's newspaper is called "The Enquirer"? 16. What continent is Bolivia on? 17. What continent is Egypt on? 18. What country are Godiva chocolates from? 19. What country did Ponce de Leon come from? 20. What county is Modesto, California in? 21. What county is Phoenix, AZ in? 22. What Cruise Line does Kathie Lee Gifford advertise for? 23. What currency is used in Algeria? 24. What day and month did John Lennon die? 25. What day is known as the "national day of prayer"? 26. What did Delilah do to Samson's hair?O 27. What did Edward Binney and Howard Smith invent in

1903?O

76. What is the highest dam in the U.S.? 77. What is the Islamic counterpart to the Red Cross?O 78. What is the length of the coastline of the state of Alaska? 79. What is the location of the Sea of Tranquility? 80. What is the longest suspension bridge in the U.S.? 81. What is the longest word in the English language? 82. What is the major fault line near Kentucky? 83. What is the mascot for Notre Dame University? 84. What is the most common kind of skin cancer in the

U.S.?

85. What is the most frequently spoken language in the

Netherlands?

86. What is the name of a Greek god? 87. What is the name of a Salt Lake City newspaper? 88. What is the name of Joan Jett's band? 89. What is the name of Neil Armstrong's wife? 90. What is the name of Roy Roger's dog? 91. What is the name of the chocolate company in San

28. What did Vasco da Gama discover? 29. What does "Sitting Shiva" mean? 30. What does caliente mean (in English)?O 31. What does CNN stand for? 32. What does CPR stand for? 33. What does EKG stand for? 34. What does Final Four refer to in the sports world? 35. What does Knight Ridder publish? 36. What does NAFTA stand for?. 37. What does NASA stand for? 38. What does Nicholas Cage do for a living? 39. What does SIDS stand for? 40. What famous model was married to Billy Joel? 41. What flower did Vincent Van Gogh paint? 42. What format was VHS's main competition? 43. What French province is cognac produced in? 44. What French ruler was defeated at the battle of

Francisco?

Waterloo?

92. What is the name of the Jewish alphabet? 93. What is the name of the leader of Ireland? 94. What is the name of the Lion King's son in the movie,

45. What hemisphere is the Philippines in? 46. What hockey team did Wayne Gretzky play for? 47. What imaginary line is halfway between the North and

"The Lion King"?

South Poles?

48. What

instrument is Ray Charles best known for

95. What is the name of the longest ruling dynasty of Japan? 96. What is the name of the Michelangelo painting that

playing?O

shows two hands with fingers touching?M

97. What is the name of the satellite that the Soviet Union

sent into space in 1957?

49. What is Alice Cooper's real name? 50. What is another astronomic term for the Northern Lights? 51. What is another name for vitamin B1? 52. What is Australia's national flower?

98. What is the nickname of Pennsylvania? 99. What is the normal resting heart rate of a healthy adult?

68

156. What U.S. Government agency registers trademarks?O 157. What U.S. state's motto is "Live free or Die"? 158. What university was Woodrow Wilson President of? 159. What was the ball game of ancient Mayans called? 160. What was the death toll at the eruption of Mount

Pinatubo?

161. What was the last year that the Chicago Cubs won the

World Series?O

162. What was the man's name who was killed in a duel with

Aaron Burr?M

163. What was the name of Jacques Cousteau's ship? 164. What was the name of the famous battle in 1836 between

Texas and Mexico?

165. What was the name of the first Russian astronaut to do a

spacewalk?O

166. What was the name of the movie that starred Sharon

Stone and Arnold Schwarzenegger?

167. What was the name of the sitcom that Alyssa Milano

starred in with Tony Danza?

168. What was the name of the television show, staring Karl

100. What is the Ohio state bird? 101. What is the oldest city in the United States? 102. What is the oldest university in the US? 103. What is the Pennsylvania state income tax rate? 104. What is the population of China? 105. What is the population of Japan? 106. What is the population of Kansas? 107. What is the population of Mexico? 108. What is the population of Mozambique? 109. What is the population of Nigeria? 110. What is the population of Ohio? 111. What is the population of Seattle? 112. What is the population of the Bahamas? 113. What is the population of the United States? 114. What is the primary language of the Philippines? 115. What is the real name of the singer, Madonna? 116. What is the salary of a U.S. Representative? 117. What is the sales tax in Minnesota? 118. What is the size of Argentina? 119. What is the state nickname of Mississippi? 120. What is the telephone number for the University of

Kentucky?

Malden, that had San Francisco in the title?M 169. What was the name of the Titanic's captain? 170. What was the purpose of the Manhattan project? 171. What was W.C. Fields' real name? 172. What were Christopher Columbus' three ships? 173. What were the names of the three ships used by

Columbus?

121. What is the zip code for Fremont, CA? 122. What is the zip code for Parsippany, NJ? 123. What kind of a sports team is the Wisconsin Badgers? 124. What kind of animal was Winnie the Pooh? 125. What kind of sports team is the Buffalo Sabres? 126. What king was forced to agree to the Magna Carta? 127. What language is mostly spoken in Brazil? 128. What movie did Madilyn Kahn star in with Gene Wilder? 129. What nationality was Jackson Pollock? 130. What New York City structure is also known as the Twin

174. What wrestling star became "The Incredible Hulk"? 175. What year did Canada join the United Nations?O 176. What year did Hitler die? 177. What year did Montana become a state?O 178. What year did the Milwaukee Braves become the Atlanta

Towers?

Braves?O

131. What ocean did the Titanic sink in? 132. What party was Winston Churchill a member of? 133. What peninsula is Spain part of? 134. What position did Willie Davis play in baseball? 135. What President became Chief Justice after his

presidency?O

179. What year did the Titanic sink? 180. What year did the U.S. buy Alaska?O 181. What year did the United States abolish the draft?O 182. What year did the Vietnam War end? 183. What year did WWII begin? 184. What year was Desmond Mpilo Tutu awarded the Nobel

Peace Prize?

136. What province is Edmonton located in? 137. What province is Montreal in? 138. What radio station did Paul Harvey work for? 139. What river flows between Fargo, North Dakota and

Moorhead, Minnesota?

185. What year was Janet Jackson's first album released?Q 186. What year was the Avery Dennison company founded? 187. What year was the Mona Lisa painted? 188. What's the formal name for Lou Gehrig's disease? 189. What's the most famous tourist attraction in Rome? 190. What's the name of a golf course in Myrtle Beach? 191. What's the name of a hotel in Indianapolis? 192. What's the name of Pittsburgh's baseball team? 193. What's the name of the actress who starred in the movie,

"Silence of the Lambs"?

194. What's the name of the song Will Smith sings about

parents?O

195. What's the name of the star of the cooking show,

"Galloping Gourmet"?

196. What's the name of the Tampa newspaper? 197. What's the name of the tiger that advertises for Frosted

Flakes cereal?

140. What river in the US is known as the Big Muddy? 141. What sport do the Cleaveland Cavaliers play? 142. What state did the Battle of Bighorn take place in? 143. What state does Martha Stewart live in? 144. What state does MO stand for? 145. What state in the United States covers the largest area? 146. What state is Niagra Falls located in? 147. What state is the Filenes store located in? 148. What store does Martha Stewart advertise for? 149. What strait separates North America from Asia? 150. What task does the Bouvier breed of dog perform? 151. What tourist attractions are there in Reims? 152. What type of bridge is the Golden Gate Bridge? 153. What type of currency is used in Australia? 154. What

type of horses appear on

the Budweiser

commercials?

155. What type of hunting are retrievers used for?

198. What's the name of the Tokyo Stock Exchange? 199. What's the population of Biloxi, Mississippi? 200. What's the population of Mississippi? 201. What's the tallest building in New York City?

69

202. Which comedian's signature line is "Can we talk"? 203. Which mountain range in North America stretches from

Maine to Georgia?

262. Where was John Adams born? 263. Where was Poe born? 264. Where was Pythagoras born? 265. Where was Tesla born? 266. Where's Montenegro? 267. Who assassinated President McKinley? 268. Who coined the

term "cyberspace"

in his novel

"Neuromancer"?

269. Who created "The Muppets"? 270. Who created the character James Bond? 271. Who created the character of Scrooge? 272. Who created the comic strip, "Garfield"? 273. Who developed the Macintosh computer? 274. Who discovered America? 275. Who found Hawaii? 276. Who invented the game Scrabble? 277. Who is a German philosopher? 278. Who is buried in the great pyramid of Giza? 279. Who is Secretary-General of the United Nations? 280. Who is the emperor of Japan? 281. Who is the founder of the Wal-Mart stores? 282. Who is the leader of India? 283. Who is the monarch of the United Kingdom? 284. Who is the president of Bolivia? 285. Who is the Prime Minister of Canada? 286. Who is the prophet of the religion of Islam? 287. Who killed Caesar? 288. Who killed Martin Luther King? 289. Who manufacturers Magic Chef applicances? 290. Who manufactures the software, "PhotoShop"? 291. Who owns CNN? 292. Who owns the St. Louis Rams? 293. Who painted Olympia? 294. Who played the teacher in Dead Poet's Society? 295. Who portrayed Jake in the television show, "Jake and the

Fatman"?

296. Who provides telephone service in Orange County,

California?

297. Who shot Billy the Kid? 298. Who started the Dominos Pizza chain? 299. Who was Charles Lindbergh's wife? 300. Who was Darth Vader's son? 301. Who was elected president of South Africa in 1994? 302. Who was Samuel Johnsons's friend and biographer? 303. Who was the 21st U.S. President?O 304. Who was the 23rd president of the United States?O 305. Who was the 33rd president of the United States?O 306. Who was the abolitionist who led the raid on Harper's

Ferry in 1859?

307. Who was the architect of Central Park? 308. Who was the author of the book about computer hackers called "The Cuckoo's Egg: Tracking a Spy Through the Maze of Computer Espionage"?

204. Which U.S. President is buried in Washington, D.C.? 205. Where are the headquarters of Eli Lilly? 206. Where are the National Archives? 207. Where are the Rocky Mountains? 208. Where are the U.S. headquarters for Procter and Gamble? 209. Where did Bill Gates go to college? 210. Where did Hillary Clinton graduate college? 211. Where did Howard Hughes die? 212. Where did the Inuits live? 213. Where did the Maya people live? 214. Where did Wicca first develop?O 215. Where did Woodstock take place? 216. Where does Mother Angelica live? 217. Where is Amsterdam? 218. Where is Ayer's rock? 219. Where is Basque country located? 220. Where is Belize located? 221. Where is Burma? 222. Where is Glasgow? 223. Where is Guam? 224. Where is John Wayne airport? 225. Where is Kings Canyon? 226. Where is Las Vegas? 227. Where is Logan International located? 228. Where is McCarren Airport? 229. Where is Melbourne? 230. Where is Milan? 231. Where is Ocho Rios? 232. Where is Perth? 233. Where is Prince Edward Island? 234. Where is Rider College located? 235. Where is Romania located? 236. Where is Santa Lucia? 237. Where is the bridge over the river Kwai? 238. Where is the Danube? 239. Where is the Euphrates River? 240. Where is the Grand Canyon? 241. Where is the Holland Tunnel? 242. Where is the Isle of Man? 243. Where is the Kalahari desert? 244. Where is the location of the Orange Bowl? 245. Where is the Louvre? 246. Where is the Mall of the America? 247. Where is the Mayo Clinic? 248. Where is the Orinoco River? 249. Where is the Orinoco? 250. Where is the Shawnee National Forest? 251. Where is the Smithsonian Institute located? 252. Where is the Thomas Edison Museum? 253. Where is the Valley of the Kings? 254. Where is the volcano Mauna Loa? 255. Where is the volcano Olympus Mons located? 256. Where is Tornado Alley? 257. Where is Trinidad? 258. Where is Tufts University? 259. Where is Venezuela? 260. Where is Webster University? 261. Where is Windsor Castle?

309. Who was the first American to walk in space?O 310. Who was the first coach of the Cleveland Browns?O 311. Who was the first female United States Representative?O 312. Who was the first governor of Alaska?O 313. Who was the first king of England?O 314. Who was the first man to fly across the Pacific Ocean?O 315. Who was the first U.S. president ever to resign?O 316. Who was the founding member of the Pink Floyd band?

70

the book, "The Grinch Who Stole

317. Who was the oldest U.S. president? 318. Who was the president of Vichy France? 319. Who was the tallest U.S. president? 320. Who won Ms. American in 1989? 321. Who won the nobel prize in literature in 1988? 322. Who won the rugby world cup in 1987? 323. Who won the Superbowl in 1982? 324. Who wrote "An Ideal Husband"? 325. Who wrote "The Pit and the Pendulum"? 326. Who wrote "The Scarlet Letter"? 327. Who wrote the book, "Huckleberry Finn"? 328. Who wrote the book, "Song of Solomon"? 329. Who wrote Christmas"?

374. When was the movie, Caligula, made? 375. When was the NFL established? 376. When was the San Francisco fire? 377. When was the Triangle Shirtwaist fire? 378. When were William Shakespeare's twins born? 379. How big is Australia? 380. How big is the Electoral College? 381. How did Bob Marley die? 382. How far away is the moon? 383. How far is it from Denver to Aspen? 384. How far is Pluto from the sun? 385. How fast can a Corvette go? 386. How hot is the core of the earth? 387. How large is Missouri's population? 388. How long did Rip Van Winkle sleep? 389. How long would it take for a $50 savings bond to

mature?

390. How long would it take to get from Earth to Mars? 391. How many casinos are in Atlantic City, NJ? 392. How many counties are in Indiana? 393. How many films did Ingmar Bergman make? 394. How many Great Lakes are there? 395. How many highway miles to the gallon can you get with

the Ford Fiesta?Q

396. How many home runs did Babe Ruth hit in his

lifetime?M

330. Who wrote the hymn "Amazing Grace"? 331. Who wrote the song, "Boys of Summer"? 332. Who wrote the song, "Silent Night"? 333. Who's the lead singer of the Led Zeppelin band? 334. When did Aldous Huxley write, "Brave New World"? 335. When did Amtrak begin operations?O 336. When did Elvis Presley die? 337. When did Geraldine Ferraro run for vice president?O 338. When did Hawaii become a state?O 339. When did Idaho become a state?O 340. When did John F. Kennedy get elected as President? 341. When did Muhammad live? 342. When did Princess Diana and Prince Charles get

397. How many home runs did Lou Gehrig have during his

married?O

career?O

398. How many islands does Fiji have? 399. How many miles is it from London, England to

Plymouth, England?

400. How many people die from snakebite poisoning in the

U.S. per year?

343. When did the American Civil War end? 344. When did the California lottery begin? 345. When did the Carolingian period begin? 346. When did the Chernobyl nuclear accident occur? 347. When did the Dow first reach 2000?O 348. When did the Hindenberg crash? 349. When did the royal wedding of Prince Andrew and

Fergie take place?

401. How many people live in Chile? 402. How many people lived in Nebraska in the mid 1980s? 403. How many Stradivarius violins were ever made? 404. How many Superbowls have the 49ers won? 405. How many years ago did the ship Titanic sink?O 406. How many zip codes are there in the U.S.? 407. How much in miles is a ten K run?O 408. How much money does the Sultan of Brunei have? 409. How much was a ticket for the Titanic? 410. How old was Elvis Presley when he died?O 411. How tall is Kilimanjaro? 412. How tall is the Gateway Arch in St. Louis, MO? 413. How tall is the Sears Building? 414. How was Teddy Roosevelt related to FDR?Q 415. How wide is the Atlantic Ocean? 416. How wide is the Milky Way galaxy? 417. In Poland, where do most people live? 418. In the late 1700's British convicts were used to populate

which colony?O

350. When did World War I start? 351. When is Bastille Day? 352. When is Boxing Day? 353. When is hurricane season in the Caribbean? 354. When is the Tulip Festival in Michigan? 355. When was "the Great Depression"? 356. When was Algeria colonized? 357. When was Babe Ruth born? 358. When was Beethoven born? 359. When was CNN's first broadcast?O 360. When was Hurricane Hugo? 361. When was John D. Rockefeller born? 362. When was Lyndon B. Johnson born? 363. When was Microsoft established? 364. When was Nostradamus born? 365. When was Rosa Parks born? 366. When was the Brandenburg Gate in Berlin built? 367. When was the De Beers company founded? 368. When was the first Barbie produced?O 369. When was the first railroad from the east coast to the

west coast completed?O

419. In what area of the world was the Six Day War fought? 420. In what book can I find the story of Aladdin? 421. Italy is the largest producer of what? 422. Mercury, what year was it discovered? 423. Name a ballet company Mikhail Baryshnikov has danced

for?

424. Name a film in which Jude Law acted. 425. Name a Gaelic language

370. When was the first Wall Street Journal published?O 371. When was the first Wal-Mart store opened?O 372. When was the Hoover Dam constructed? 373. When was the last major eruption of Mount St. Helens?O

71

426. Name a movie that the actress, Sandra Bullock, had a

436. At Christmas time, what is the traditional thing to do

role in.

under the mistletoe?Q

437. At what speed does the Earth revolve around the sun? 438. Can you give me the name of a clock maker in London,

England?

439. For what disease is the drug Sinemet used as a treatment? 440. George Bush purchased a small interest in which baseball

team?

427. Name a novel written by John Steinbeck. 428. Name a tiger that is extinct? 429. Name an American made motorcycle? 430. Name an American war plane? 431. Name an art gallery in New York. 432. Name one of the Seven Wonders of the Ancient World 433. Tell me what city the Kentucky Horse Park is near? 434. The U.S. Department of Treasury first issued paper

currency for the U.S. during which war?O 435. About how many soldiers died in World War II?

Ghi chú: O: O-Error; Q:Q-Error; M:M-Error

72

PHỤ LỤC C: ĐỒ THỊ Ý NIỆM SINH ĐÚNG TỪ TREC 2002 TRƯỚC

KHI LÀM GIÀU ONTOLOGY

73

PHỤ LỤC D: ĐỒ THỊ Ý NIỆM SINH ĐÚNG TỪ TREC 2002 SAU

KHI LÀM GIÀU ONTOLOGY

74

Có thể bạn quan tâm

Tài liêu mới