Cũng d
Đại Học Quốc Gia TP. Hồ Chí Minh
TRƯỜNG ĐẠI HỌC BÁCH KHOA
---------o0o----------
LUẬN VĂN ĐẠI HỌC
XỬ LÝ CÁC CÂU TRUY VẤN VÀ TÌM KIẾM TRÊN KHO TÀI LIỆU CÓ CHÚ THÍCH NGỮ NGHĨA BẰNG TIẾNG ANH
Chuyên ngành: Khoa Học Máy Tính
GVHD
: Pgs.Ts. Cao Hoàng Trụ
Sinh viên : Nguyễn Trần Đăng Khoa
(50601130)
Tạ Tất Tài (50602084)
TP. Hồ Chí Minh, tháng 12 – 2010
CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
Cán bộ hướng dẫn khoa học : PGS.TS. CAO HOÀNG TRỤ
Cán bộ chấm nhận xét 1 : .........................................................................................
Cán bộ chấm nhận xét 2 : .........................................................................................
Luận văn đại học được bảo vệ tại HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN ĐẠI HỌC
TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày . . . . . tháng . . . . năm . . . . .
LỜI CAM ĐOAN
Tôi cam đoan rằng ngoại trừ các kết quả tham khảo từ các công trình khác như đã ghi rõ trong luận
văn, các công việc trình bày trong luận văn này là do chính tôi thực hiện và chưa có phần nội dung
nào của luận văn này được nộp để lấy một bằng cấp ở trường đại học nào khác.
Ngày ................ Tháng ............ Năm ..........
Ký tên
LỜI CẢM ƠN
Trước hết, chúng tôi xin gởi lời cảm ơn chân thành và sâu sắc đến Pgs.Ts. Cao Hoàng Trụ, và
kỹ sư Châu Kim Cường, những người đã trực tiếp hướng dẫn tôi trong quá trình làm luận văn này.
Sự hướng dẫn chu đáo, tận tình, cùng với những tài liệu và lời khuyên quý giá của thầy và anh trong
hơn 3 tháng qua là nhân tố không thể thiếu để chúng tôi có thể hoàn thành nhiệm vụ.
Chúng tôi xin gửi lời cảm ơn đến gia đình và bạn bè, những người luôn sát cánh, động viên, và
tạo mọi điều kiện tốt nhất để chúng tôi có thể học tập và hoàn tất được luận văn tốt nghiệp này.
Chúng tôi chân thành biết ơn sự tận tình dạy dỗ và sự giúp đỡ của tất cả quý thầy cô khoa Khoa
học và Kỹ thuật Máy tính trường Đại học Bách khoa.
Luận văn này khó tránh khỏi còn thiếu sót do tầm nhìn của chúng tôi còn hạn hẹp, rất mong
nhận được sự góp ý của quý thầy cô cùng các bạn.
TÓM TẮT
Từ khi ra đời đến nay, World Wide Web đã trở thành một công cụ quan trọng để lưu trữ và chia
sẻ nguồn tri thức khổng lồ. Tuy nhiên, các công cụ phần mềm hiện nay chưa hỗ trợ thật hiểu quả
cho con người trong quá trình khai thác kho tri thức ấy. Với mong muốn làm hiệu quả hơn quá trình
đó, luận văn này xây dựng một công cụ tìm kiếm có thể “hiểu” được nội dung của câu truy vấn bằng
tiếng Anh và trả về kết quả.
Để biên dịch câu truy vấn ngôn ngữ tự nhiên, luận văn này dựa trên nền tảng web ngữ nghĩa,
kết hợp với phương pháp dịch ít phụ thuộc vào cú pháp của nhóm VN-KIM. Để thể hiện nội dung
biên dịch được, luận văn biểu diễn bằng đồ thị ý niệm. Cuối cùng, câu truy vấn SeRQL được dùng
để tìm kiếm kết quả.
Hiệu quả của hệ thống được đánh giá trên tập câu truy vấn mẫu “TREC 2002”.
MỤC LỤC
CHƯƠNG 1 TỔNG QUAN ............................................................ Error! Bookmark not defined.
1.1 Giới thiệu....................................................................................................................... 1
1.2 Mục tiêu và phạm vi ...................................................................................................... 3
1.3 Cấu trúc luận văn ........................................................................................................... 5
CHƯƠNG 2 6
CÁC NGHIÊN CỨU VÀ HỆ THỐNG LIÊN QUAN ....................... Error! Bookmark not defined.
2.1 Rút trích quan hệ............................................................................................................ 6
2.2 Sơ lược về đồ thị ý niệm ................................................................................................ 7
2.2.1 Đồ thị ý niệm mở rộng ............................................................................................. 9
2.2.2 Các phương pháp chuyển đổi câu truy vấn sang đồ thị ý niệm . Error! Bookmark not
defined.
CHƯƠNG 3 12
PHƯƠNG PHÁP TIẾP CẬN .........................................................................................................12
3.1 Chuyển đổi câu truy vấn với từ để hỏi “How many” .................................................... 12
3.2 Chuyển đổi câu truy vấn có tính từ ............................................................................... 14
3.3 Chuyển đổi câu truy vấn có tính từ so sánh nhất ........................................................... 16
3.4 Chuyển đổi câu truy vấn có liên từ luận lý ................................................................... 17
CHƯƠNG 4 21
PHƯƠNG PHÁP BIÊN DỊCH ......................................................... Error! Bookmark not defined.
4.1 Các bước của giải thuật ................................................................................................ 21
4.1.1 Phân tách câu truy vấn ............................................................................................23
4.1.2 Nhận biết thực thể có tên .........................................................................................23
4.1.3 Nhận biết thực thể không tên ...................................................................................23
4.1.4 Nhận biết tính từ .....................................................................................................24
4.1.5 Nhận biết từ quan hệ ...............................................................................................24
4.1.6 Xác định lớp của thực thể ........................................................................................24
4.1.7 Gom các thực thể ....................................................................................................25
4.1.8 Xác định quan hệ ẩn ................................................................................................26
4.1.9 Xác định loại quan hệ giữa các thực thể ..................................................................26
4.1.10 Xoá bỏ quan hệ không phù hợp ...............................................................................29
4.1.11 Xác định quan hệ giữa tính từ và thực thể................................................................30
4.1.12 Xây dựng đồ thị ý niệm ...........................................................................................33
4.2 Tập luật ....................................................................................................................... 33
4.2.1 Cấu trúc của hệ thống luật .......................................................................................34
4.2.2 Cấu trúc thành phần điều kiện của luật ....................................................................35
4.2.3 Cấu trúc thành phần hành động của luật ..................................................................35
4.2.4 Xây dựng một số luật đặc biệt .................................................................................36
4.2.5 Xây dựng từ điển luật ..............................................................................................37
4.3 Kết quả thí nghiệm....................................................................................................... 39
CHƯƠNG 5 47
ĐỒ THỊ Ý NIỆM ............................................................................. Error! Bookmark not defined.
Lưu trữ đồ thị............................................................................................................... 55 5.1
Hiển thị đồ thị ................................................................ Error! Bookmark not defined. 5.2
CHƯƠNG 6 62
KẾT LUẬN 62
TÀI LIỆU THAM KHẢO ..............................................................................................................64
PHỤ LỤC A: TẬP CÂU MẪU TREC 2002 .............................................................................................68
PHỤ LỤC C: ĐỒ THỊ Ý NIỆM SINH ĐÚNG TỪ TREC 2002 TRƯỚC KHI LÀM GIÀU ONTOLOGY .............73
PHỤ LỤC D: ĐỒ THỊ Ý NIỆM SINH ĐÚNG TỪ TREC 2002 SAU KHI LÀM GIÀU ONTOLOGY ..................74
DANH MỤC HÌNH
Hình 2.1: Ví dụ về đồ thị ý niệm. ............................................... Error! Bookmark not defined.
Hình 2.2: Ví dụ về biểu diễn câu truy vấn sử dụng HA (Hypostatic abstraction). ...............Error! Bookmark not defined.
Hình 2.3: Ví dụ về biểu diễn câu truy vấn lồng nhau sử dụng đỉnh truy vấn con. ...............Error! Bookmark not defined.
Hình 3.1: Ví dụ về biểu diễn câu truy vấn "How many". ..........................................................13
Hình 3.2: Ví dụ về biểu diễn câu truy vấn "How many" ở dạng rút gọn. ...................................13
Hình 3.3: Ví dụ về biểu diễn tổng quát cho câu truy vấn "How many". ....................................13
Hình 4.1: Mô tả các bước dùng để xây dựng đồ thị ý niệm cho câu truy vấn. ............................22
Hình 4.2: Xác định loại quan hệ giữa hai thực thể ei và ej. ........................................................27
Hình 4.3: Lược đồ ánh xạ kiểu quan hệ của bộ ba truy vấn. ......................................................28
Hình 4.4: Xác định loại quan hệ giữa tính từ adj và thực thể. ....................................................31
Hình 4.5: Lược đồ ánh xạ kiểu quan hệ giữa tính từ và thực thể. ..............................................32
Hình 4.6: Cấu trúc tập thành phần TransformRules và rule. ......................................................34
Hình 4.7: Cấu trúc của thành phần điều kiện luật. .....................................................................36
Hình 4.8: Ví dụ về thành phần premise.....................................................................................36
Hình 4.9: Cấu trúc của thành phần hành động. .........................................................................37
Hình 4.10: Cấu trúc từ điển quan hệ. ..........................................................................................38
Hình 4.11: Ví dụ một luật hoàn chỉnh. ........................................................................................38
Hình 4.12: Ví dụ một số thành phần trong từ điển. .....................................................................38
Hình 4.13: Ví dụ về biểu diễn câu truy vấn “Queried relation”. ..................................................42
Hình 4.14: Ví dụ về biểu diễn câu truy vấn “Advert / Temporal”. ..............................................42
Cấu trúc dữ liệu sử dụng để lưu trữ đồ thị ý niệm kết quả. ........ Error! Bookmark not Hình 5.1: defined.
Cấu trúc dữ liệu sử dụng để hiển thị đồ thị ý niệm kết quả. ....... Error! Bookmark not Hình 5.2: defined.
Hình 5.3: Ví dụ về kết quả phương pháp lưu trữ và hiển thị đồ thị ý niệm.Error! Bookmark not defined.
DANH MỤC BẢNG
Bảng 4.1: Bảng thuộc tính thành phần premise. ........................................................................35
Bảng 4.2: Mô tả các thuộc tính của thành phần entry. ...............................................................38
Bảng 4.3: Kết quả thực nghiệm trên TREC 2002 khi chưa áp dụng phương pháp đề nghị. ........40
Bảng 4.4: Kết quả thực nghiệm trên TREC 2002 sau khi áp dụng phương pháp đề nghị. ..........40
Bảng 4.5: Kết quả thực nghiệm trên TREC 2002 sau khi làm giàu Ontology. ...........................41
Bảng 4.6: Bảng tổng kết kết quả cuối cùng đạt được trên tập TREC 2002. ................................43
Bảng 4.7: Kết quả thực nghiệm trên TREC 2007 khi chưa áp dụng phương pháp đề nghị. ........44
Bảng 4.8: Kết quả thực nghiệm trên TREC 2007 sau khi áp dụng phương pháp đề nghị. ..........44
Bảng 4.9: Kết quả thực nghiệm trên TREC 2007 sau khi làm giàu Ontology. ...........................45
Bảng 4.10: Bảng tổng kết kết quả cuối cùng đạt được trên tập TREC 2007. ................................46
CHƯƠNG 1
TỔNG QUAN
1.1 Giới thiệu
Kể từ khi ra đời đến nay, World Wide Web (WWW) đã làm thay đổi rất nhiều cách con người
trao đổi và tiếp cận với thông tin, tri thức. Và đối với nền kinh tế tri thức hiện nay, tầm quan trọng
của WWW càng lớn hơn. Điều đó đặt ra yêu cầu là: phải làm sao để quá trình khai thác tri thức từ
WWW đạt được hiệu suất tối ưu. Muốn vậy, một giải pháp là phải tự động hóa được quá trình đó;
nói cách khác, máy móc phải có khả năng khai thác thông tin trên WWW với một độ chính xác cao.
Hiện nay, đã có những công cụ phần mềm nhắm đến mục tiêu đó. Nổi bật nhất có lẽ là các động
cơ tìm kiếm dựa trên từ khóa (keyword – based search engine), như động cơ tìm kiếm của Google,
Yahoo,... Tuy đã đạt được những thành công nhất định, nhưng các hệ thống này còn có những
khuyết điểm làm cho người sử dụng chưa được hài lòng. Có thể nêu ra như:
Kết quả trả về cho một truy vấn là nhiều, nhưng độ chính xác lại thấp. Người dùng phải tốn
nhiều thời gian với những kết quả không thích hợp.
Kết quả trả về hoàn toàn phụ thuộc vào từ khóa được cung cấp. Trong khi, theo mong muốn
của con người, thì các truy vấn tương tự nhau về mặt ngữ nghĩa phải dẫn đến những kết quả
như nhau.
Do công cụ tìm kiếm chủ yếu chỉ so trùng, mà chưa “hiểu” được nội dung của thông tin chứa
trên WWW và nội dung của câu truy vấn, nên dẫn đến những hạn chế trên.
Như vậy, để làm tăng hiệu quả của quá trình tìm kiếm tự động, một hướng tiếp cận là làm cho
máy tính “hiểu” được nội dung của thông tin: thông tin được lưu trữ trên WWW và thông tin trong
câu truy vấn của người dùng.
1
Đề tài này quan tâm đến khía cạnh giúp cho máy tính hiểu được nội dung của câu truy vấn dùng
ngôn ngữ tự nhiên là tiếng Anh. Nhìn chung, việc hướng dẫn cho máy tính xử lý 1 câu truy vấn
bằng ngôn ngữ tự nhiên (bất kỳ) nhằm hiểu được ý nghĩa là khá phức tạp, có thể liệt kê ra một số
khó khăn:
Ngữ pháp của ngôn ngữ tự nhiên rất đa dạng, cách sử dụng rất linh hoạt. Và một câu có thể
có nhiều ngữ pháp phù hợp (mặc dù đối với con người sẽ không có nghĩa). Dẫn đến không
thể chỉ dựa vào cấu trúc của câu để xác định ngữ nghĩa.
Cùng một từ nhưng có thể ứng với nhiều từ loại (danh từ, động từ, ...). Muốn hiểu đúng phải
xác định đúng loại từ. Lấy ví dụ: “Time flies like an arrow”. “Time” và “flies” có ít nhất 2
cách hiểu có ý nghĩa: “Time” làm danh từ và “flies” làm động từ, hay “Time” làm động từ
và “flies” làm danh từ.
Phải giải quyết sự đa hình của từ (morphology) nếu muốn nhận biết đầy đủ các thành phần
của câu. Ví dụ như động từ “fly” có thể có dạng “flies”, “flying”, “flew”.
Việc xác định quan hệ ngữ nghĩa giữa các đối tượng trong câu đòi hỏi phải có tri thức về các
mối quan hệ phù hợp giữa các đối tượng. Và phải xem xét ngữ cảnh của câu để chọn ra quan
hệ phù hợp nhất.
Câu có thể hàm chứa những mối quan hệ ngầm giữa các đối tượng, mà không được biểu
hiện ra bằng các từ ngữ biểu diễn quan hệ, vì các mối liên hệ này được con người ngầm thỏa
thuận trên một nền tảng kiến thức chung.
Một cách thường xuyên, câu truy vấn bằng ngôn ngữ tự nhiên không chặt về ngữ pháp, mà
thường được dùng ở dạng thông dụng không “chuẩn” ngữ pháp.
Tuy có nhiều khó khăn như đã kể trên, nhưng hiện nay các nhóm nghiên cứu về lĩnh vực web
ngữ nghĩa đã đạt được những tiến bộ đáng kể. Và việc xây dựng một động cơ tìm kiếm theo ngữ
nghĩa là khả thi, có thể thành công với những câu truy vấn không quá phức tạp. Vì vậy, đề tài này sẽ
ứng dụng các thành tựu đó để xây dựng một động cơ tìm kiếm cho phép người dùng truy vấn bằng
ngôn ngữ tự nhiên, và trả về tài liệu chứa nội dung cần tìm.
2
1.2 Mục tiêu và phạm vi
Đề tài này sẽ xây dựng một hệ thống tìm kiếm dựa trên ngữ nghĩa. Dữ liệu đầu vào sẽ là một câu
truy vấn bằng tiếng Anh. Hệ thống, sau khi xử lý, sẽ trả về tài liệu chứa thông tin được tìm kiếm
hoặc trả về số liệu được yêu cầu (lúc này không sử dụng chức năng tìm kiếm mà chỉ đưa ra số liệu
trả lời). Đồng thời, để giúp người dùng kiểm tra liệu cách “hiểu” câu truy vấn của hệ thống có đúng
hay không, hệ thống cũng vẽ ra đồ thị ý niệm tương ứng với câu truy vấn đã nhận vào.
Một hệ thống như vậy nếu xây dựng mới hoàn toàn sẽ đòi hỏi rất nhiều thời gian và công sức.
Vì vậy, đề tài sẽ dựa trên hệ thống tìm kiếm ngữ nghĩa cho tiếng Việt (VN-KIM Search) có sẵn
[tham khảo anh Dũng], tái sử dụng nhiều mô-đun không phụ thuộc vào ngôn ngữ, như mô-dun chú
giả, đánh chỉ mục, gom cụm, truy xuất tài liệu, chỉ tập trung làm mới mô-dun xử lý câu truy vấn.
Hệ thống sẽ bảo đảm được khả năng xử lý những câu truy vấn tiếng Anh đơn giản, chỉ bao gồm
danh từ, động từ, từ để hỏi và giới từ. Ví dụ như câu truy vấn: “What actress starred in “The Lion in
Winter” ?”. Đây là khả năng mà hiện nay VN-KIM Search đã làm được cho tiếng Việt.
Luận văn không chỉ dừng lại ở những câu truy vấn đơn giản như ví dụ trên, mà còn nhắm đến
mục tiêu trả lời được những câu truy vấn phức tạp hơn. Đó là câu truy vấn có liên từ luận lý, tính từ
định tính, tính từ định lượng, tính từ so sánh nhất, và lượng từ. Lấy ví dụ như các câu truy vấn sau:
“Who was biographer and Samuel Johnsons's friend?” chứa liên từ luận lý.
“What famous model was married to Billy Joel?” chứa tính từ định tính.
“What is the oldest university in the US?” chứa tính từ định lượng.
“What is the highest dam in the U.S.?” và “What is the most common kind of skin cancer
in the U.S.?” chứa tính từ so sánh nhất.
“How many films did Ingmar Bergman make?” chứa lượng từ.
Hiện đã có nghiên cứu của nhóm VN-KIM để biên dịch những câu truy vấn dạng này từ ngôn
ngữ tự nhiên sang đồ thị ý niệm. Luận văn này sẽ ứng dụng thành quả nghiên cứu đó, đồng thời mở
3
rộng thêm một số khả năng khi xử lý những câu truy vấn dạng này. Đầu tiên là khả năng đề xuất đồ
thị ý niệm khả áp dụng ngay cả khi quan hệ với tính từ trong câu truy vấn không có trong cơ sơ tri
thức. Mục đích là làm ta có thể đánh giá tính chính xác của quá trình “hiểu” câu truy vấn của hệ
thống mà không bị quá lệ thuộc vào cơ sơ tri thức. Ví dụ như sau:
“What is the longest dam in the U.S.?” Mặc dù quan hệ giữ “dam” và “long” không có trong
cơ sơ tri thức, nhưng ta vẫn có thể cung cấp đồ thị ý niệm cho người dùng (với quan hệ “ảo” được
vẽ màu xanh lá).
Hình 1.1 Đồ thị có đề xuất quan hệ không tồn tại trong cơ sở tri thức
Ngoài ra, để truy xuất được tài liệu, thì chỉ ngừng lại ở đồ thị là chưa đủ, cần phải chuyển đồ thị
đó sang ngôn ngữ SeRQL, là ngôn ngữ dùng để truy xuất cơ sở tri thức ngữ nghĩa. Luận văn này sẽ
đề xuất cách thức chuyển từ đồ thị của những câu truy vấn dạng này sang truy vấn SeRQL để lấy về
thực thể (entity) cần tìm.
Luận văn cũng đề xuất cách xử lý câu truy vấn có chứa so sánh hơn của tính từ định lượng. Các
câu truy vấn có so sánh hơn với một hằng số, hoặc so sánh hơn với một thực thể, như “What dam in
the U.S. is higher than 1200 meters?”, “What dam is higher than Dworshak in the U.S.?” cũng sẽ
được chuyển sang đồ thị ý niệm, rồi chuyển sang câu truy vấn SeRQL tương ứng.
4
1.3 Cấu trúc luận văn
Chương 1 đã trình bày khái quát động cơ, mục đích, ý tưởng thực hiện đề tài. Tiếp theo sau
Chương 1 là phần trình bày chi tiết về ý tưởng và phương pháp của chúng tôi để đạt được mục đích
đã đề ra.
Chương 2 trình bày những nghiêu cứu và hệ thống liên quan đến việc chuyển đổi câu truy vấn
tiếng Anh sang đồ thị ý niệm. Mục 2.1 trình bày phương pháp rút trích quan hệ trong câu truy vấn.
Sơ lược giới thiệu về đồ thị ý niệm được trình bày ở Mục 2.2.
Chương 3 trình bày cách tiếp cận vấn đề với việc giải quyết câu truy vấn hỏi về số lượng được
trình bày tại Mục 3.1, giải quyết cho câu truy vấn có chứa tính từ được trình bày tại Mục 3.2, giải
quyết cho câu truy vấn có chứa tính từ so sánh nhất được trình bày tại Mục 3.3 và giải quyết cho
câu truy vấn có chứa liên từ luận lý sẽ được trình bày tại Mục 3.4.
Chương 4 trình bày phương pháp biên dịch câu truy vấn tiếng Anh sang đồ thị ý niệm. Mục 4.1
sẽ mô tả các bước trong giải thuật xây dựng đồ thị ý niệm cho câu truy vấn. Mục 4.2 trình bày chi
tiết về tập luật ánh xạ. Những kết quả đạt được của đề tài sẽ được tổng kết tại Mục 4.3.
Chương 5 trình bày chi tiết phương pháp lưu trữ và hiển thị đồ thị ý niệm.
Chương 6 đưa ra kết luận và đề nghị hướng phát triển cho tương lai. Phần phụ lục giới thiệu tập
câu hỏi mẫu TREC 2002, TREC 2007 cùng các đồ thị ý niệm đã được sinh đúng cho những câu truy
vấn rút ra từ hai tập câu hỏi mẫu này.
5
CHƯƠNG 2
KIẾN THỨC NỀN TẢNG
2.1 Rút trích quan hệ
Rút trích quan hệ là xác định mối quan hệ ngữ nghĩa giữa cặp các thành phần không có cấu trúc
hay bán cấu trúc trong văn bản ngôn ngữ tự nhiên. Rút trích quan hệ dựa vào Ontology liên quan tới
hai công việc chính: xác định mối quan hệ giữa hai thành phần đã biết chủ yếu dựa trên miền
Ontology và khám phá các mối quan hệ mới giữa hai ý niệm không có trên miền Ontology. Ví dụ
trong câu “Bill Gates is chairman and chief software architect of Microsoft Corporation”, tồn tại
quan hệ theo kiểu của ACE (Automatic Content Extraction) là EMPLOYMENT.exec giữa hai thực
thể có tên là “Bill Gates” thuộc lớp PERSON.Name và “Mircrosoft Corporation” thuộc lớp
ORGANIZATION.Commercial. Có nhiều kỹ thuật rút trích quan hệ, dựa trên luật (rule-based), dựa
trên đặc điểm (feature-based) và phương pháp kernel (kernel-based) dưới đây trình bày một số
nghiên cứu về rút trích quan hệ:
Các phương pháp dựa trên luật sử dụng các luật của ngôn ngữ để nắm bắt các mẫu quan
hệ khác nhau. Hệ thống [8] rút trích quan hệ từ một quá trình phân tích cú pháp, do đó kết quả
của nó phụ thuộc hoàn toàn vào cây cú pháp.
Các phương pháp rút trích dựa trên đặc điểm [21] sử dụng các đặc điểm của ngôn ngữ
như đặc điểm từ vựng, đặc điểm cú pháp và đặc điểm ngữ nghĩa. Những phương pháp này rất
hiệu quả cho việc rút trích quan hệ. Tuy nhiên, vấn đề gặp phải là các đặc điểm phải được mô
tả thủ công và cấu trúc thông tin trong cây cú pháp không được bảo toàn trong cây đặc điểm
(Là cây biểu diễn các đường nối không kết thúc giữa hai thực thể trong cây cú pháp).
Các phương pháp dựa trên kernel chú trọng vào việc sử dụng các cây kernel riêng lẻ để
khai thác đặc điểm cấu trúc. Hệ thống [19] xây dựng một quan hệ kernel trên cây cú pháp cho
việc rút trích quan hệ. Kernel so trùng các node từ gốc cho tới lá một cách đệ quy theo từng lớp
từ trên xuống.
6
Tuy nhiên các nghiên cứu trên chỉ chú trọng vào rút trích quan hệ giữa các thực thể có tên đã
biết. Để xây dựng được đồ thị ý niệm, ngoài việc rút trích quan hệ giữa các thực thể có tên còn phải
rút trích quan hệ giữa các thực thể không tên với nhau, hay các quan hệ giữa các thực thể có tên với
thực thể không tên.
2.2 Đồ thị ý niệm (Conceptual Graph)
2.2.1 Sơ lược về đồ thị ý niệm
Đồ thị ý niệm là một hình thức biểu diễn logic (logical formalism) vừa có tính trực quan, vừa có
sự chính xác. Về hình thức, đây là một đồ thị tạo ra bởi các đỉnh và các cạnh (có thể có hướng hoặc
không có hướng). Nhờ sử dụng cách biểu diễn đồ họa trực quan đó, đồ thị cho phép con người
nhanh chóng có được một cái nhìn tổng quan, dễ nắm bắt ý nghĩa. Về nội dung, đồ thị ý niệm có thể
được ánh xạ trực tiếp sang logic vị từ (predicate logic). Nhờ đó, có thể biểu diễn ngữ nghĩa một cách
chính xác, giữ được tính chính xác về mặt logic. Với những đặc điểm đó, đồ thị ý niệm vừa dễ tiếp
cận đối với con người, vừa khả xử lý đối với máy tính.
Và đồ thị ý niệm đã được dùng như là một hình thức biểu diễn tri thức, là một ngôn ngữ trung
gian cho việc chuyển đổi qua lại giữa hình thức biểu diễn hướng máy tính và ngôn ngữ tự nhiên.
“Tim Berners Lee, người phát minh của WWW, kết luận rằng các CG có thể dễ dàng tích hợp với
Semantic Web. Nó cũng được chỉ ra trong là có một ánh xạ chặt giữa CG và ngôn ngữ RDF (ko
hiểu đoạn này >.<).” [tham khao HA].
“Trong bài báo đầu tiên công bố liên quan tới đồ thị ý niệm, Sowa đã định nghĩa đồ thị ý niệm
như sau: Chỗ này ta nghĩ chỉ cần nói: Sowa đã định nghĩa dtyn trong 1 bài báo của mình:… rồi trích
dẫn đoạn định nghĩa thôi
Đồ thị ý niệm là một đồ thị hữu hạn, liên thông, không có hướng, lưỡng phân với những nút
thuộc một loại được gọi là ý niệm (hoặc khái niệm – concepts) và những nút thuộc loại còn lại được
gọi là quan hệ khái niệm (conceptual relations).” [tham khao HA]
7
Như vậy, đồ thị ý niệm thuộc loại đồ thị phân đôi, và bao gồm 2 loại đỉnh: các đỉnh khái niệm và
các đỉnh quan hệ. Trong đó, các đỉnh khái niệm chỉ liên kết với các đỉnh quan hệ bởi các cạnh và
ngược lại.
Đỉnh khái niệm được biểu diễn bằng hình chữ nhật có nhãn là kiểu khái niệm kết hợp với tham
chiếu. Đỉnh quan hệ có hình oval với nhãn chính là kiểu quan hệ của nó. Mỗi đỉnh quan hệ có thể
liên kết với nhiều đỉnh khái niệm bằng các cạnh có hướng. Để ngắn gọn, chúng ta sẽ gọi đỉnh quan
FIELD: CS
IN
STUDENT: John
SUBJECT: *
STUDY
hệ, đỉnh khái niệm lần lượt là quan hệ, khái niệm.
[hình tham khảo CDT]
Hình trên là đồ thị ý niệm cho câu “John is a student. There is a subject. CS is a field of study.
The subject is in CS. John studies the subject”. Hoặc ngắn gọn hơn là “John studies a subject in
CS”. (Đoạn này nếu có thể ta nghĩ mình nên tìm một ví dụ khác tương tự, vì ngay cả ví dụ mà cũng
phải tham khảo có thể tạo cho người đọc cảm giác mình chưa hiểu kỹ về nó)
Trong định dạng văn bản, các khái niệm và các quan hệ có thể được biết trong dấu ngoặc vuông
và ngoặc tròn như sau:
[STUDENT: John]→(STUDY)→[SUBJECT: *]→(IN)→[FIELD: CS]
Trong ví dụ này, [STUDENT: John], [SUBJECT:*], [FIELD: CS] là các khái niệm với
STUDENT, SUBJECT và FIELD trở thành kiểu khái niệm, trong khi đó (STUDY) và (IN) là các
quan hệ với STUDY và IN là các kiểu quan hệ. Các tham khảo John và CS là các tham chiếu xác
định. Tham chiếu “*” là tham chiếu tổng quát ám chỉ tới một thực thể không xác định.
Đồ thị ý niệm được sử dụng để kiểm tra tính chính xác của quá trình dịch câu truy vấn trong đề
tài, bên cạnh các tham chiếu xác định và tham chiếu tổng quát, được bổ sung thêm tham chiếu nghi
vấn. Tham chiếu nghi vấn biểu diễn cho thực thể được truy vấn trong câu. Một đồ thị ý niệm truy
8
vấn là một đồ thị ý niệm mà các tham chiếu có thể là tham chiếu xác định, tham chiếu tổng quát
hoặc là tham chiếu nghi vấn được biểu diễn bằng dấu “?”.
2.2.2 Đồ thị ý niệm mở rộng
Đồ thị ý niệm mở rộng [tham khảo HA] là đồ thị ý niệm có sử dụng thêm một khái niệm đặc
biệt, gọi là đỉnh truy vấn con. Đó là một đỉnh khái niệm, nhưng có kiểu khái niệm riêng, và tham
chiếu đến thực thể của nó là một đồ thị ý niệm khác. Tức là, bên trong đỉnh truy vấn con là nội dung
một đồ thị ý niệm truy vấn tri thức. Đỉnh truy vấn con được biểu diễn bằng hình chữ nhật tròn góc
(Ta nghĩ chỗ này mình nên nói: trong tài liệu (hay luận văn) này, đỉnh truy vấn con được biểu diễn
bằng hình chữ nhật vát góc, vì các ví dụ sau này đâu phải tròn góc). Ta xét một ví dụ minh họa: ta
có câu truy vấn lồng nhau như sau: “Tìm tên của những giảng viên có tên trùng với tên của những
giảng viên tại trường Đại học Bách Khoa”. Câu truy vấn này sẽ được biểu diễn như sau:
[hình tham khảo HA]
Trong đề tài [tham khảo HA], đỉnh truy vấn con này được sử dụng phần lớn trong các phương
pháp đề xuất sẽ được bàn đến ở những phần tiếp theo.
9
2.3 Câu truy vấn SeRQL [tham khảo
http://www.openrdf.org/doc/sesame2/2.3.1/users/ch09.html #section-numerical-comparisons]
SeRQL (Sesame RDF Query Language) là một ngôn ngữ truy vấn cơ sở tri thức. Tương tự như
SQL được sử dụng làm ngôn ngữ truy vấn trên các cơ sở dữ liệu quan hệ, SeRQL được sử dụng trên
các cơ sở dữ liệu viết bằng ngôn ngữ RDF.
Trong SeRQL, có 2 loại câu truy vấn: một loại sẽ trả về một bảng các giá trị (một tập các ràng
buộc (binding) giữa biến với giá trị, tương tự như khi truy vấn với SQL), loại còn lại sẽ trả về một
đồ thị RDF (RDF graph). Trong đề tài này chỉ sử dụng loại thứ nhất, gọi là select queries (phiên bản
2.3.2), sẽ được trình bày sau đây.
Đối với 1 câu truy vấn thuộc loại select queries , sẽ có 8 mệnh đề có thể được sử dụng, đó là:
SELECT, FROM, FROM CONTEXT, WHERE, ORDER BY, LIMIT, OFFSET và USING
NAMESPACE. Chỉ có mệnh đề SELECT là bắt buộc, các mệnh đề còn lại có thể không có mặt
trong câu truy vấn. Các mệnh đề SELECT, FROM, WHERE và ORDER BY là những mệnh đề sẽ
được sử dụng để truy vấn trong đề tài này.
Mệnh đề SELECT ở SeRQL cũng tương tự như trong SQL, sẽ chỉ ra các biến mà ta cần trả về
giá trị. Nếu truy vấn thành công, tập kết quả trả về sẽ là các giá trị được ràng buộc với các biến liệt
kê trong mệnh đề SELECT. Ví dụ [tham khảo
SELECT O, S FROM {S} rdfs:label {O}
http://www.openrdf.org/doc/sesame2/2.3.1/users/ch09.html#section-numerical-comparisons]:
Mệnh đề FROM ở SeRQL cũng tương tự như trong SQL, nhưng, thay vì chỉ ra các bảng (table)
có chứa dữ liệu, người sẽ phải chỉ ra các biểu thức đường đi (path expression) có chứa dữ liệu trong
cơ sở tri thức RDF. Trong ví dụ trên, biểu thức đường đi là “{S} rdfs:label {O}” .
Mệnh đề WHERE, cũng tương tư như SQL, là nơi để người dùng đặc tả các ràng buộc mà các
biến phải thỏa mãn. Nếu có nhiều ràng buộc, chúng có thể được liên kết bằng các từ khóa AND,
OR, NOT, là các toán tử của đại số Bool.Trong mệnh đề WHERE, ta cũng có thể sử dụng câu truy
10
vấn lòng nhau (nested query) và sử dụng từ khóa ALL để biểu diễn ràng buộc đối với một tập giá
trị. Ví dụ [tham khảo http://www.openrdf.org/doc/sesame2/2.3.1/users/ch09.html#section-
SELECT highestValue FROM {node} ex:value {highestValue} WHERE highestValue >= ALL ( SELECT value
FROM {} ex:value {value}
)
numerical-comparisons]:
Để sắp xếp kết quả trả về theo một thứ tự nhất định, người dùng có thể sử dụng mệnh đề
ORDER BY, kết hợp các từ khóa DESC (giảm dần) và ASC (tăng dần – mặc định). Có thể kết hợp
sắp xếp trên nhiều biến trả về, cách nhau bởi dấu “,”. Ví dụ [tham khảo
SELECT Countr, Population FROM {Country} ex:population {Population} ORDER BY Population DESC
http://www.openrdf.org/doc/sesame2/2.3.1/users/ch09.html#section-numerical-comparisons]:
Ngoài ra, SeRQL cũng hỗ trợ 3 toán tử UNION, INTERSECT và MINUS để thực hiện kết hợp,
giao và loại trừ các tập kết quả. Ví dụ [tham khảo
SELECT title FROM {book} dc10:title {title}
UNION
SELECT title FROM {book} dc11:title {title}
http://www.openrdf.org/doc/sesame2/2.3.1/users/ch09.html#section-numerical-comparisons]:
Đề tài sẽ sử dụng các toán tử tập hợp này vào việc giải quyết các câu truy vấn có liên từ luận lý.
(Có nên nói thêm về Sesame, S-Lucene ko? Đề tài mình đụng đến mấy cái đó để lấy tài liệu,
nhưng mà mấy phần sau lại ko nhắc đến nên nói ở đây cũng hợp lý)
11
CHƯƠNG 3
PHÂN TÍCH VẤN ĐỀ VÀ PHƯƠNG PHÁP GIẢI
QUYẾT
3.1 Chuyển đổi câu truy vấn với từ để hỏi “How many”
Về cơ bản, chúng tôi thấy rằng việc biểu diễn các câu truy vấn hỏi về số lượng (Có từ hỏi là
“How many”) bằng đồ thị ý niệm đòi hỏi phải giải quyết được hai vấn đề sau:
Thứ nhất, ta phải biểu diễn được phạm vi mà câu truy vấn muốn đề cập.
Thứ hai, ta phải biểu diễn được đối tượng hay thuộc tính mà câu truy vấn muốn đề cập.
Thật vậy, lấy trường hợp của ví dụ trong Hình 2.2, nếu như PERSON có thêm thuộc tính về
salary, thì với biểu diễn như vậy ta không thể biết được câu truy vấn muốn hỏi độ trung bình về
tuổi, hay độ trung bình về lương.
Trong giải pháp đề nghị này, chúng tôi sẽ sử dụng đồ thị lồng nhau (nested CG), cụ thể là ở đây
chúng tôi sẽ sử dụng đỉnh truy vấn con để giải quyết vấn đề về biểu diễn phạm vi mà câu truy vấn
muốn bao phủ, và sử dụng liên kết đồng tham chiếu để biểu diễn đối tượng mà câu truy vấn muốn
đề cập.
Với giải pháp đề nghị, câu truy vấn “How many students are there in Computer Science
Department?” sẽ được biểu diễn như Hình 3.1.
12
Hình 3.0.1: Ví dụ về biểu diễn câu truy vấn "How many".
Để ngắn gọn, chúng tôi sẽ định nghĩa một đường liên kết mới thay thế đường liên kết đồng tham
chiếu cho việc biểu diễn đối tượng mà câu truy vấn muốn đề cập. Trong tài liệu này chúng tôi đề
xuất biểu diễn bằng đường liên kết nét đôi. Biểu diễn dạng ngắn gọn cho ví dụ trên như sau:
Hình 3.0.2: Ví dụ về biểu diễn câu truy vấn "How many" ở dạng rút gọn.
Sau đây là giải pháp đề xuất cho việc giải quyết mẫu câu truy vấn có từ để hỏi là “How many”.
Mẫu câu truy vấn này sẽ có dạng sau, với RW là từ quan hệ, S là chủ thể, O là khách thể:
How many S RW O
Đầu tiên, chúng ta sẽ xây dựng đỉnh truy vấn con để biểu diễn câu S RW O. Sau đó, chúng ta
định nghĩa quan hệ COUNT gắn với đỉnh truy vấn con vừa tạo. Một đường liên kết nét đôi sẽ được
nối từ quan hệ COUNT tới đỉnh khái niệm S trong đỉnh truy vấn con. Biểu diễn tổng quát cho mẫu
truy vấn “How many” như Hình 3.3
Hình 3.0.3: Ví dụ về biểu diễn tổng quát cho câu truy vấn "How many".
13
3.2 Chuyển đổi câu truy vấn có tính từ
Trong [16] đã đưa ra giải pháp sau để giải quyết vấn đề biểu diễn tính từ của thực thể. Ví dụ, để
trả lời câu truy vấn “What famous model was married to Billy Joel?” yêu cầu Ontology phải có khả
năng thể hiện thuộc tính famous của các người mẫu.
Giải pháp 1: Định nghĩa lớp FAMOUSMODEL, ví dụ, đối với những người mẫu mà nổi
tiếng. Nó sẽ tạo ra nhiều lớp con của các người mẫu cho những độ khác nhau của thang đo độ
nổi tiếng.
Giải pháp 2: Định nghĩa kiểu quan hệ FAMEPROPERTY có miền lớp là MODEL và
range lớp là STRING. Cách này gây ra vấn đề của việc so trùng các giá trị String sau đó.
Ở giải pháp thứ nhất nêu trên, ta thấy giải pháp này sẽ dẫn đến bùng nổ số lượng lớp mới phải
định nghĩa. Đặc biệt một vấn đề nảy sinh là việc đưa ra các thang đo để có thể định lượng được các
tính từ. Điều này chỉ có thể giải quyết được trong một số trường hợp đối với các tính từ như “tall”,
“high”… Ví dụ, ta có thể quy ước một ngôi nhà được gọi là cao khi kích thước chiều cao lớn hơn
100m. Tuy nhiên có những tính từ mà con người khó có thể định lượng được như là “good”,
“famous”… thì việc định nghĩa một thang đo cho những tính từ như vậy sẽ gặp nhiều khó khăn.
Ngoài ra, các tác giả trong [10], [11] đã nêu ra rằng các ý nghĩa của các tính từ còn phụ thuộc
vào ngữ cảnh. Ví dụ khi nói: “Peter is tall for a gymnast” thì ý nghĩa ở đây là Peter chỉ được xem là
cao trong ngữ cảnh so sánh với các vận động viên thể dục, còn đối với việc so sánh với người bình
thường thì điều này chưa hẳn đã đúng. Từ nhận xét này, các tác giả trong [10], [11] đã đề xuất giải
pháp khái niệm hóa các tính từ bằng phương pháp động. Các tác giả đề nghị xây dựng các lớp so
sánh để biểu diễn cho ngữ cảnh và sinh ra các quan hệ để biểu diễn độ tương quan về tính chất so
với lớp so sánh này.
Giải pháp thứ hai cho ta một cách mềm dẻo hơn khi biểu diễn các tính từ cho thuộc tính. Vấn đề
nảy sinh của cách thứ hai là việc so trùng giá trị String có thể được giải quyết bằng một từ điển các
từ đồng nghĩa, ví dụ như là WordNet. Tuy nhiên, với giải pháp này, ý nghĩa của các tính từ chỉ có
thể hiểu bởi con người, còn máy tính không thể suy luận được từ việc biểu diễn này. Ví dụ với cách
14
biểu diễn như vậy đối với những câu hỏi có dạng như: “Một ngôi nhà là cao hay không khi chiều
cao của nó lớn hơn 100m?” thì máy sẽ không đủ tri thức để đưa ra câu trả lời.
Từ việc phân tích trên ta thấy mỗi giải pháp đều có ưu, nhược điểm và khó có thể trả lời được
rằng giải pháp nào là tốt hơn giải pháp nào. Do đó trong tài liệu này, chúng tôi đề xuất cả hai giải
pháp để thể hiện các tính từ chỉ tính chất, thuộc tính của thực thể mà sẽ được trình bày ngay dưới
đây.
Mẫu câu chứa các tính từ chỉ tính chất, thuộc tính của thực thể sẽ có dạng sau, với S là chủ thể,
ADJ là tính từ, O là khách thể:
ADJ S RW O
Hoặc
S RW ADJ O
Phương pháp đề xuất cho mẫu câu truy vấn dạng này theo “Giải pháp 1” là định nghĩa kiểu
quan hệ HASPROPERTY gắn với thực thể ngay sau ADJ và range lớp là STRING. Các mẫu truy
vấn ở trên sẽ được biểu diễn thành:
[String: *] ← (HASPROPERTY) ← S → (RW) → O
Hoặc
S → (RW) → O → (HASPROPERTY) → [String: *]
Phương pháp đề xuất cho mẫu câu truy vấn dạng này theo “Giải pháp 2” là ứng với mỗi tính từ
ta sẽ định nghĩa lớp con của thực thể ngay sau ADJ mà có tính chất thỏa ADJ theo một độ đo nào
đó. Các mẫu truy vấn ở trên sẽ được biểu diễn thành:
S ← (SubclassOf) ←Sub_S → (RW) → O
Hoặc
S → (RW) → Sub_O → (SubclassOf) → O
Trong đề tài này, phương pháp tiếp cận đã sử dụng cả hai giải pháp nêu trên, trong đó “Giải
pháp 1” được sử dụng để biểu diễn các tính từ định lượng (tall, hight,…), còn “Giải pháp 2” được
sử dụng cho việc biểu diễn các tính từ định tính (famous, good,…).
15
Do đó, câu truy vấn với tính từ định tính “What famous model was married to Billy Joel” sẽ
được biển diễn như Hình 3.4 với lớp FAMOUS_MODEL là lớp con của lớp MODEL trong
Ontology.
Hình 3.4: Ví dụ về biểu diễn tính từ định tính.
Câu truy vấn với tính từ định lượng “How tall is Billy Joel” sẽ được biểu diễn tương ứng như
Hình 3.5.
Hình 3.5: Ví dụ về biểu diễn tính từ định lượng.
3.3 Chuyển đổi câu truy vấn có tính từ so sánh nhất
Đề tài sử dụng đồng thời hai phương pháp để biểu diễn tính từ. Việc chọn cách biểu diễn nào
trong từng trường hợp cụ thể tùy thuộc vào tính từ so sánh nhất cần được biểu diễn thuộc về tính từ
định tính hay định lượng.
Đối với tính từ so sánh nhất thuộc loại định lượng (Ví dụ: tallest, highest), việc giải quyết cho
câu truy vấn loại này cũng tương tự như hướng giải quyết cho loại truy vấn “How many” bằng việc
thay quan hệ COUNT thành quan hệ MIN, MAX tương ứng và đường liên kết sẽ chỉ tới tính từ định
lượng mà câu truy vấn cần đề cập.
Chúng tôi đề xuất giải pháp như sau: Mẫu câu truy vấn tổng quát cho dạng này sẽ có các trường
hợp như bên dưới, với ADJ_EST là cụm tính từ so sánh nhất (most adj, least adj, adjEST,…):
ADJ_EST S RW O
Hoặc
S RW ADJ_EST O
16
Đầu tiên, ta sẽ coi như không có mặt của ADJ_EST và biểu diễn câu S RW O thành một đỉnh
truy vấn con. Sau đó trong đỉnh truy vấn con vừa được tạo này, ta sẽ biểu diễn tính từ ở dạng
nguyên mẫu của ADJ_EST bằng phương pháp đã nêu trong Mục 3.1.2 của Chương 3.
Nhiệm vụ còn lại là định nghĩa quan hệ MIN, MAX chỉ tới đỉnh truy vấn con và một đường liên
kết nét đôi sẽ được nối từ quan hệ MIN, MAX tới biểu diễn tính từ nằm trong đỉnh truy vấn con.
Ví dụ câu truy vấn “What is the highest dam in the U.S.?” sẽ được biểu diễn như Hình 3.6:
Hình 3.6: Ví dụ về biểu diễn câu truy vấn có tính từ so sánh nhất định lượng.
Đối với tính từ so sánh nhất thuộc loại định tính, chúng tôi giải quyết tương tự như cho trường
hợp biểu diễn tính từ định lượng đã trình bày ở Mục 3.2, Chương 3. Theo đó, với câu truy vấn
“What the most famous model was married to Billy Joel?” sẽ được biểu diễn như Hình 3.7 với lớp
MOST_FAMOUS_MODEL là lớp con của lớp MODEL.
Hình 3.7: Ví dụ về biểu diễn câu truy vấn có tính từ so sánh nhất định tính.
3.4 Chuyển đổi câu truy vấn có tính từ
3.4.1 Trường hợp tính từ định tính
17
3.4.2 Trường hợp tính từ định lượng [tham khảo HA]
Với câu có “ADJ”, “S”, “O” lần lượt là tính từ định lượng, chủ từ và động từ, dạng :
ADJ S RW O
Hoặc
S RW ADJ O
Nghiên cứu [tham khảo HA] đề nghị thể hiện mối quan hệ giữa tính từ và thực thể như sau:
Một quan hệ “hasProperty” sẽ biểu diễn cho tính từ “ADJ”.
Miền (domain) chủ từ của quan hệ là lớp của thực thể đứng sau “ADJ”.
Tầm vực (range) của quan hệ là lớp “String”.
Như vậy, khi đã xác định được tính từ và thực thể mà tính từ đi kèm, thì mối quan hệ giữa chúng
được biểu diễn dưới dạng:
[String: *] ← (hasProperty) ← S → (RW) → O
Hoặc
S → (RW) → O → (hasProperty) → [String: *]
Phương pháp này giúp ta có thể lưu trữ được “lượng” của một thuộc tính (định lượng) mà đối
tượng có, mà chưa cần quan tâm đến “độ đo” của thuộc tính đó. Thật vậy, công việc xác định độ
đo cho 1 tính từ khi áp dụng với từng loại thực thể có thể nói là phức tạp và khó làm chính xác.
Ví dụ: “What is the high dam in the U.S.?”, khó có thể xác định khi nào một “dam” là “high”,
chính xác nhất có lẽ là đi tìm chuẩn được quốc tế công nhận để một “dam” là “high”, nhưng
không phải đối tượng nào cũng có một chuẩn quốc tế khi xét đến tính chất “high”. Với phương
pháp trên, ta chỉ cần lưu trữ độ cao của các đối tượng “dam”, còn việc đặt ra chuẩn “high” sẽ là
do người dùng tự đưa ra để chọn những kết quả mong muốn. Nhờ vậy tiết kiệm được công sức,
và đơn giản được cách lưu trữ.
3.5 Chuyển đổi câu truy vấn có tính từ so sánh nhất
18
3.5.1 Trường hợp tính từ định tính
3.5.2 Trường hợp tính từ định lượng [tham khảo HA]
Với câu truy vấn có tính từ định lượng so sánh nhất (Ví dụ: tallest, highest), hướng giải quyết
tương tự như đã trình bày ở 3.3 (cho loại truy vấn “How many”), điểm khác biệt là thay quan hệ
“COUNT” thành quan hệ “MIN”, hoặc “MAX” tương ứng, và đường liên kết sẽ chỉ tới lớp “String”
trong quan hệ ứng với tính từ định lượng mà câu truy vấn cần đề cập.
Cụ thể như sau: xét dạng tổng quát cho câu truy vấn loại này như bên dưới, với “ADJ_EST” đại
diện cho cụm tính từ so sánh nhất (most adj, least adj, adjEST,…):
ADJ_EST S RW O
Hoặc
S RW ADJ_EST O
Đầu tiên, ta sẽ tìm dạng nguyên mẫu “ADJ” của “ADJ_EST” và biểu diễn câu truy vấn theo
phương pháp cho tính từ định lượng đã trình bày ở phần 3.4.2. Lúc này ta đã có được một đỉnh truy
vấn con.
Sau đó, ta xác định xem so sánh nhất của tính từ trong truy vấn là tương ứng với lấy “lượng” lớn
nhất hay lấy “lượng” nhỏ nhất. Ví dụ: “highest” tương ứng với lấy lượng lớn nhất, còn “lowest” sẽ
lấy lượng nhỏ nhất. Nếu là trường hợp đầu tiên thì quan hệ là “MAX”, ngược lại là “MIN”.
Nhiệm vụ còn lại là định nghĩa quan hệ “MAX”, “MIN” chỉ tới đỉnh truy vấn con và một đường
liên kết nét đôi sẽ được nối từ quan hệ này tới lớp “String” trong cách biểu diễn tính từ định lượng.
Ví dụ câu truy vấn “What is the highest dam in the U.S.?” sẽ được biểu diễn như sau:
[hình tham khảo HA]
19
3.6 Chuyển đổi câu truy vấn có tính từ định lượng so sánh hơn
Đề tài này mở rộng biểu diễn thêm một dạng nữa của tính từ định lượng, đó là dạng so sánh hơn.
Trong phần này sẽ đề xuất cách biểu diễn cho 2 dạng so sánh hơn: so sánh hơn với một hằng số, và
so sánh hơn với một thực thể có tên.
Đối với dạng so sánh hơn với một hằng số, mẫu câu tổng quát như sau, với “ADJ_ER” đại diện
cho cụm tính từ so sánh hơn (more adj than, less adj than, adjER than,…):
S RW ADJ_ER CONSTANT
Đầu tiên, ta sẽ biểu diễn mối quan hệ giữa “S” và “ADJ_ER” như 3.4.2. Phần “CONSTANTS”
sẽ được nhận biết như một giá trị thuộc lớp “String”. Sau đó, tùy theo tính từ nguyên gốc là gì, ta sẽ
xác định được quan hệ so sánh hơn là “isGreaterThan” hay “isSmallerThan” . Ví dụ: “higher” sẽ
tương ứng với “isGreaterThan”, còn “lower” sẽ tướng ứng với “isSmallerThan”. Cuối cùng là thêm
quan hệ này vào giữa lớp “String” trong mối quan hệ biểu diễn tính từ và hằng số. Biểu diễn có
dạng như sau:
S → (hasProperty) → [String: *] → (isGreaterThan) → [String: *]
Đối với dạng so sánh hơn với thực thể có tên, mẫu câu tổng quát như sau:
S RW ADJ_ER O
Để biểu diễn dạng này, ta sẽ tìm lần lượt 2 mối quan hệ thực thể - tính từ, đó là S – ADJ và O –
ADJ. Rồi biểu diễn 2 mối quan hệ này như ở 3.4.2. Sau đó, cũng xác định mối quan hệ so sánh là
“isGreaterThan” hay “isSmallerThan” tương tự như trên. Cuối cùng là liên kết 2 lớp “String” bằng
quan hệ này. Biểu diễn có dạng tổng quát sau:
S → (hasProperty) → [String: *] → (isGreaterThan)
↓
S → (hasProperty) → [String: *]
20
CHƯƠNG 4
THIẾT KẾ
4.1 Các bước của giải thuật
Kết quả nghiên cứu của tác giả [18] đã đưa ra một phương pháp dịch câu truy vấn sang đồ thị ý
niệm không dựa vào phân tích cú pháp của câu truy vấn mà dựa trên thực thể cùng các mối liên hệ
giữa chúng. Phương pháp này có các ưu điểm sau:
Có thể xây dựng đồ thị ý niệm cho các câu truy vấn có hình thức là một câu đầy đủ, hoặc
một đoạn câu. Phương pháp này cũng có thể xây dựng được đồ thị ý niệm cho các câu truy vấn
không đúng cú pháp.
Dễ dàng chuyển đổi để thực hiện cho các câu truy vấn bằng các ngôn ngữ khác nhau khi
có một Ontology tương ứng.
Mặc khác phương pháp này cũng rút ngắn thời gian so với phương pháp phân tích cú
pháp câu truy vấn.
Quá trình chuyển đổi câu truy vấn sang đồ thị ý niệm thực chất là quá trình tìm kiếm các thực
thể trong câu truy vấn và xây dựng mối quan hệ giữa chúng dựa vào Ontology. Ta xét câu truy vấn:
“Who is Peter’s son”, ta có Peter là một thực thể có tên thuộc lớp PERSON, son biểu diễn cho một
thực thể thuộc lớp SON, chúng ta gọi là thực thể không tên, và trên Ontology tồn tại quan hệ giữa
hai thực thể này là
Trong đề tài này, phần hiện thực chương trình đã kế thừa lại hạt nhân xử lý từ kết quả nghiên
cứu của tác giả [18], đồng thời hiệu chỉnh và giải quyết thêm cho những truy vấn hỏi về số lượng,
những truy vấn có chứa tính từ, tính từ so sánh nhất và liên từ luận lý. Một lược đồ tổng quát được
trình bày tại Hình 4.1 với những bổ sung như sau:
21
Để giải quyết truy vấn hỏi về số lượng (“How many”), phương pháp tiếp cận đã hiệu chỉnh Bước
12 (Xây dựng đồ thị ý niệm).
Để giải quyết truy vấn có chứa tính từ và tính từ so sánh nhất, phương pháp tiếp cận đã thêm
Bước 4 (Nhận diện tính từ) và Bước 11 (Xác định quan hệ giữa tính từ và thực thể), đồng thời hiệu
chỉnh Bước 12 (Xây dựng đồ thị ý niệm).
Để giải quyết truy vấn có chứa liên từ luận lý, phương pháp tiếp cận đã thêm Bước 1 (Phân tách
câu truy vấn) và đồng thời hiệu chỉnh Bước 12 (Xây dựng đồ thị ý niệm).
Hình 4.0.1: Mô tả các bước dùng để xây dựng đồ thị ý niệm cho câu truy vấn.
22
Tiếp theo đây, chúng ta sẽ đi vào chi tiết từng bước của giải thuật.
4.1.1 Phân tách câu truy vấn
Bước này được sử dụng nhằm phân tách câu truy vấn có chứa liên từ luận lý AND, OR, NOT
thành các câu truy vấn nguyên tử (là truy vấn mà không có chứa liên từ luận lý trong câu). Như
chúng tôi đã phân tích tại Mục 3.1.4, Chương 3, những câu truy vấn có liên từ luận lý mà ta đang
xem xét là những câu truy vấn có dạng cấu trúc song song. Quá trình phân tách sẽ sử dụng liên từ
luận lý AND, OR, NOT làm từ phân tách. Từ kết quả của bước phân tách này, ta sẽ được một tập
các câu truy vấn nguyên tử.
4.1.2 Nhận biết thực thể có tên
Đề tài sử dụng GATE để nhận diện thực thể có tên dựa trên Ontology PROTON. Các thực thể
có tên là các thực thể xác định. Trên Ontology, các thực thể có tên sẽ có một ID xác định, thuộc về
một lớp xác định, có thông tin về thuộc tính và quan hệ của chúng với các thực thể khác. Ví dụ trên
PROTON, http://www.ontotext.com/kim/2005/04/wkb#Country là lớp của thực thể “Viet Nam” và
thực thể có tên này có ID xác định là http://www.ontotext.com/kim/2005/04/wkb#Country_T.VM.
Quá trình chú thích ngữ nghĩa bằng GATE cho ta kết quả là một tập các thực thể có tên, với các
thông tin về lớp ID của thực thể, lớp của thực thể và các thuộc tính cũng như các mối quan hệ của
thực thể. Các thực thể có tên được ký hiệu là IE.
4.1.3 Nhận biết thực thể không tên
Để xây dựng được đồ thị ý niệm, ngoài việc nhận diện các thực thể có tên, các thực thể không
tên cũng phải được nhận diện một cách đầy đủ và chính xác. Các thực thể không tên là các thực thể
không xác định và không tồn tại trên Ontology, tuy nhiên về mặt ngữ nghĩa, chúng có thể thuộc về
một lớp xác định nào đó trong Ontology, ví dụ các từ “person”, “son”, “father”, “mother”,… là các
thực thể không tên, và trên PROTON, http://www.ontotext.com/kim/2005/04/wkb#Person là lớp
biểu diễn cho các thực thể không tên này.
Công cụ ANNIE trong GATE có thể thực hiện chính xác việc nhận dạng các thực thể không tên.
ANNIE giúp ta tất cả các bước trong quá trình tìm kiếm, công việc của chúng ta là xây dựng một
23
danh sách tên các lớp trong Ontology và lưu vào một tập tin; sau đó, ta sẽ định nghĩa tên tập tin này
vào tập tin chỉ mục có tên là lists.def trong thư mục Gazetteer.
ANNIE cho ta tập các thực thể không tên, và thông tin về lớp của các thực thể không tên đó.
Các thực thể không tên được ký hiệu UE.
4.1.4 Nhận biết tính từ
Bước này nhận biết các tính từ trong câu truy vấn. Các tính từ được chia làm 3 loại:
Tính từ định tính: famous, beautiful, …
Tính từ định lượng: tall, hight, …
Tính từ so sánh nhất: smallest, longest, …
Việc nhận diện tính từ cũng được thực hiện bằng công cụ ANNIE của GATE, điểm khác biệt là
chúng ta cần xây dựng danh sách (lập từ điển) các tính từ định lượng, danh sách các tính từ định
tính và danh sách các tính từ so sánh nhất và ánh xạ chúng vào Gazetteer.
4.1.5 Nhận biết từ quan hệ
Các từ quan hệ được xem là chìa khóa để xác định mối quan hệ giữa các thực thể trong câu truy
vấn. Các từ quan hệ là các giới từ, động từ như: in, on, of, live in, located in, has, is, are, …
Tương tự như nhận diện các thực thể không tên, việc nhận diện từ quan hệ cũng được thực hiện
bằng công cụ ANNIE của GATE, điểm khác biệt là chúng ta cần xây dựng danh sách các từ quan hệ
và ánh xạ chúng vào Gazetteer. Kết quả nhận biết từ quan hệ là tập các từ quan hệ có trong câu truy
vấn. Các từ quan hệ được ký hiệu là RW.
4.1.6 Xác định lớp của thực thể
Trong các câu hỏi bắt đầu bằng What, Who, Where, các từ để hỏi này được xem là một từ biểu
diễn cho một thực thể không tên và chưa xác định được lớp. Nhiệm vụ của bước này là xác định
chính xác lớp thực thể cho các từ để hỏi nêu trên.
24
Đề tài đề xuất phương pháp xác định lớp cho thực thể What như sau:
Nếu đứng sau What là một thực thể không tên, thì lớp của What được xác định cũng
chính là lớp của thực thể không tên đó. Ví dụ trong câu “What country are Godiva chocolates
from?”, sau What là country, mà ta có country là biểu diễn của thực thể không tên thuộc lớp
COUNTRY, do đó lớp của What được xác định là COUNTRY.
Ngược lại, nếu sau What không phải là thực thể không tên thì lớp của What được xác
định bởi thực thể có tên đầu tiên sau What và từ quan hệ cuối cùng trong câu. Ví dụ trong câu
“What does CNN stand for?”, CNN là một thực thể có tên thuộc lớp ORGANIZATION và
stand for biểu diễn cho quan hệ HASALIAS, do đó What được xác định là thuộc lớp ALIAS.
Đối với các câu hỏi bắt đầu bằng Who thì từ hỏi Who có thể được hiểu là một thực thể thuộc lớp
PERSON hoặc lớp ORGANIZATION. Bước này xác định lớp của Who dựa vào từ quan hệ và thực
thể đứng sau Who. Ta xét một ví dụ như sau: “Who provides telephone service in Orange County,
California?”, lớp của Who trong trường hợp này được xác định là ORGANIZATION.
4.1.7 Gom các thực thể
Ta xét câu truy vấn “Who are members of the board of the IMG?”, sau Bước 4.1.6 (Xác định lớp
của thực thể), chúng ta được hai thực thể không tên: Who, member thuộc lớp PERSON và một thực
thể có tên IMG thuộc lớp COMPANY. Trong đó Who và member chỉ về cùng một PERSON, là
member của IMG. Do đó, Who và member được gom lại thành một thực thể duy nhất.
Quá trình gom thực thể được thực hiện dựa vào heuristic. Hai thực thể trong câu truy vấn chỉ
được gom lại khi chúng thỏa mãn đồng thời các đặc điểm sau:
Trong hai thực thể có ít nhất một thực thể không tên.
Lớp của thực thể không tên là lớp cha của lớp của thực thể còn lại, xét trên miền
Ontology.
Giữa hai thực thể là dấu phẩy hoặc các từ quan hệ đặc biệt: “is”, “are”, “was”, “were”.
25
4.1.8 Xác định quan hệ ẩn
Một số thực thể trong câu truy vấn đứng liền kề nhau nhưng không xuất hiện từ quan hệ nào ở
giữa chúng. Trong câu “What county is Modesto, California in?”, giữa thực thể Modesto thuộc lớp
CITY và thực thể California thuộc lớp PROVINCE tồn tại mối quan hệ SUBREGIONOF, tuy nhiên
giữa chúng không xuất hiện từ quan hệ nào. Bước này thực hiện việc thêm từ quan hệ cho các thực
thể đứng liền kề nhau hoặc cách nhau bởi dấu phẩy. Việc xác định từ quan hệ dựa vào lớp giữa hai
thực thể và loại quan hệ giữa hai lớp đó trên Ontology. Tuy nhiên trên Ontology, giữa hai lớp có thể
tồn tại nhiều loại quan hệ. Đề tài sắp xếp các loại quan hệ dựa trên mức độ chi tiết về lớp của loại
quan hệ. Quá trình xác định quan hệ ẩn giữa hai thực thể sẽ được tiến hành theo heuristic sau: Ta
liệt kê tất cả quan hệ có thể có giữa hai thực thể đó trong Ontology và chọn ra quan hệ chi tiết nhất.
Ví dụ trong câu truy vấn trên, giữa hai lớp CITY và lớp PROVINCE có thể tồn tại các loại quan hệ
PARTOF, LOCATEDIN và SUBREGIONOF. Trên Ontology PROTON, các loại quan hệ này được
định nghĩa như sau:
Quan hệ PARTOF được định nghĩa là (ENTITY, PARTOF, ENTITY).
Quan hệ LOCATEDIN là (ENTITY, LOCATEDIN, LOCATION).
Quan hệ SUBREGIONOF là (LOCATION, SUBREGIONOF, LOCATION).
Tương ứng trên Ontology PROTON, lớp LOCATION là lớp con của lớp ENTITY. Do đó quan
hệ SUBREGIONOF là quan giữa hai lớp chi tiết nhất nên quan hệ này được chọn.
4.1.9 Xác định loại quan hệ giữa các thực thể
Đây là bước mà các cặp thực thể sẽ được liên kết với nhau bằng từ quan hệ, được gọi là một bộ
ba truy vấn
Xem xét câu truy vấn “Where is the location of the Orange Bowl?”, từ quan hệ of nằm giữa hai
thực thể là location và Orange Bowl. Đối với câu truy vấn “What state is the Filenes store located
in?”, từ quan hệ in biểu diễn mối quan hệ LOCATEDIN giữa thực thể state và thực thể Filenes
store nằm ở sau thực thể Filenes store. Trong câu “In what country is Angkor Wat?” từ quan hệ in
nằm ở trước thực thể country dùng để biểu diễn mối quan hệ LOCATEDIN giữa thực thể country và
26
thực thể Angkor Wat. Như vậy, từ quan hệ dùng để biểu diễn mối quan hệ giữa hai thực thể có thể
nằm ở giữa, nằm ở sau hoặc nằm ở trước hai thực thể. Khi xem xét trên tập mẫu, từ quan hệ xuất
hiện nhiều nhất là ở giữa hai thực thể. Do đó, để hình thành nên các bộ ba truy vấn
quan hệ, thực thể>, độ ưu tiên sẽ là vị trí của từ quan hệ đối với vị trí của hai thực thể. Ưu tiên thứ
nhất là từ quan hệ nằm giữa hai thực thể, kế tiếp là từ quan hệ nằm sau hai thực thể và cuối cùng là
từ quan hệ sẽ nằm phía trước hai thực thể. Các bộ ba này sau đó sẽ được so trùng với Ontology để
xác định kiểu quan hệ tương ứng có trong Ontology.
Dựa vào các phân tích trên, đề tài đưa ra giải thuật xác định kiểu quan hệ giữa hai thực thể trong
câu truy vấn như sau (Hình 4.2):
Hình 4.0.2: Xác định loại quan hệ giữa hai thực thể ei và ej.
Bước 1: Xét các từ quan hệ nằm giữa ei và ej. Bằng việc sử dụng tập luật, nếu có từ quan
hệ nào khi kết hợp với ei và ej xác định được kiểu quan hệ giữa ei và ej thì quá trình dừng,
ngược lại qua Bước 2.
Bước 2: Xét các từ quan hệ nằm ở sau ei và ej, tương tự như Bước 1, nếu không xác định
được kiểu quan hệ giữa ei và ej thì qua Bước 3.
Bước 3: Xét các từ quan hệ nằm trước ei và ej.
Bằng giải thuật trên, chúng ta xác định được kiểu quan hệ giữa hai thực thể ei và ej, nếu hai thực
thể ei và ej có mối quan hệ với nhau trong ngữ cảnh của câu truy vấn. Quá trình được áp dụng tương
tự cho tất cả các cặp thực thể trong câu truy vấn. Các loại quan hệ tìm được sẽ được thêm vào danh
sách quan hệ RELATION.
Việc xác định kiểu quan hệ được làm bằng cách ứng với mỗi bộ ba
thể> ta sẽ ánh xạ thành
27
pháp lập từ điển (Tập luật) và heuristic. Quá trình ánh xạ được khái quát bằng lược đồ như ở Hình
4.3.
Hình 4.0.3: Lược đồ ánh xạ kiểu quan hệ của bộ ba truy vấn.
Chi tiết cho lược đồ tại Hình 4.3 được diễn dịch như sau:
Xét mối quan hệ có dạng [C1, S1] – RW – [C2, S2] với:
o RW là từ quan hệ,
o C1 và C2 lần lượt là lớp của thực thể thứ nhất và thứ hai,
o S1 và S2 lần lượt là giá trị chuỗi ban đầu của thực thể thứ nhất và thứ hai.
Ta sẽ lần lượt xây dựng các ánh xạ sau đây:
o Ánh xạ từ quan hệ RW thành quan hệ R1 - tập những quan hệ có thể tương ứng với từ
quan hệ RW. Ví dụ từ quan hệ “’s” tương ứng với tập các quan hệ {HASWIFE,
HASSON, HASCAPITAL, …}
28
o Ánh xạ từ quan hệ (C1, C2) thành quan hệ R2 - tập những quan hệ có thể có giữa C1
và C2. Ví dụ giữa hai lớp (PERSON, PERSON) ta có tập các quan hệ sau:
{HASWIFE, HASFATHER, HASMOTHER, …}
o Ánh xạ (S1, RW) thành R3 - tập những quan hệ có thể có nếu biết từ quan hệ RW và
giá trị chuỗi ban đầu S1. Ví dụ với (wife, ’s) sẽ được ánh xạ thành tập quan hệ
{HASWIFE}.
o Ánh xạ (RW, S2) thành R4 - tập những quan hệ có thể có nếu biết từ quan hệ RW và
giá trị chuỗi ban đầu S2. Ví dụ với (has, mother) sẽ được ánh xạ thành tập quan hệ
{HASMOTHER}
Ta có thể dễ dàng nhận thấy R3, R4 đều là tập con của R2. Gọi R là mối quan hệ thật sự
của từ quan hệ RW. Chắc chắn R R1 R2. Ngoài ra, trong một số trường hợp, có thể R R1
R3 hoặc R R1 R4 hoặc R sẽ thuộc giao của cả bốn tập hợp trên. Như vậy, về lý thuyết ta
có thể xác định được quan hệ R nếu xây dựng đầy đủ cả bốn tập hợp trên.
Việc xây dựng tập ánh xạ R3 và R4 được thực hiện bằng hệ thống luật. Chi tiết về hệ
thống luật sẽ được trình bày ở phần sau.
4.1.10
Xoá bỏ quan hệ không phù hợp
Sau Bước 4.1.9 (Xác định loại quan hệ giữa các thực thể), có một số quan hệ được xác định
nhưng không phù hợp với ngữ cảnh của câu truy vấn, các loại quan hệ này sẽ được xóa bỏ. Bước
này sử dụng các heuristic sau để xóa bỏ các quan hệ không phù hợp:
Nếu hai thực thể Ei và Ei+1 cách nhau bởi dấu phẩy, thì Ei+1 chỉ quan hệ với Ei, các mối
quan hệ của Ei+1 với các thực thể khác sẽ bị xóa bỏ. Ví dụ trong câu “What's the population of
[CITY:Biloxi](POPULATIONCOUNT)[STRING:?]
[PROVINCE:Mississippi](POPULATIONCOUNT)[STRING:?]
[CITY:Biloxi](SUBREGIONOF)[PROVINCE:Mississippi]
Biloxi, Mississippi?”, tồn tại các quan hệ:
29
Hai thực thể Biloxi và Mississippi cách nhau bởi dấu phẩy, do đó quan hệ thứ hai được
xóa bỏ.
Nếu Ei và Ei+1 đứng liền kề nhau, hoặc cách nhau bằng từ quan hệ “’s”, thì các quan hệ
của Ei với các thực thể trước nó sẽ bị xóa bỏ. Ví dụ, trong câu “What is the name of Neil
[PERSON:Neil Armstrong]( HASLABEL)[LABEL:?]
[PERSON:*](HASLABEL)[LABEL:?]
[PERSON:Neil Armstrong](HASWIFE)[PERSON:*]
Armstrong’s wife?” có các quan hệ:
Vì thực thể wife có quan hệ với thực thể Neil Armstrong bằng từ quan hệ ‘s. Do đó quan
hệ đầu tiên được xóa bỏ.
Trong trường hợp một thực thể có quan hệ với nhiều thực thể đứng trước nó, thì chỉ giữ
lại mối quan hệ với thực thể không xác định đứng trước, gần nó nhất. Ví dụ, trong câu truy vấn
[COMPANY:Sea World](LOCATEDIN)[CITY:?]
[CITY:?](LOCATEDIN)[PROVINCE:Florida]
[COMPANY:Sea Word](LOCATEDIN)[PROVINCE:Florida]
“What city in Florida is Sea World in?” có ba loại quan hệ:
Quan hệ thứ hai bị xóa bỏ.
4.1.11
Xác định quan hệ giữa tính từ và thực thể
Tại bước này, ta sẽ xét các liên kết giữa tính từ và thực thể, được gọi là một bộ hai thể>. Xem xét câu truy vấn “What famous model was married to Billy Joel?”, tính từ famous nằm trước thực thể model. Đối với câu truy vấn “Name a tiger that is extinct?”, tính từ extinct nằm sau thực thể tiger. Như vậy, tính từ liên kết với một thực thể có thể nằm trước, hoặc nằm sau thực thể đó. Khi xem xét trên tập mẫu, tính từ xuất hiện nhiều nhất là ở trước thực thể. Do đó, để hình thành nên các bộ hai truy vấn 30 đối với vị trí của thực thể. Ưu tiên nhất là tính từ nằm trước thực thể, cuối cùng là tính từ nằm sau thực thể. Các bộ hai hệ tương ứng có trong Ontology. Dựa vào các phân tích trên, đề tài đưa ra giải thuật xác định kiểu quan hệ giữa tính từ và thực thể trong câu truy vấn như sau (Hình 4.4): Bước 1: Xét các thực thể nằm sau tính từ adj. Bằng việc sử dụng tập luật, nếu có thực thể ej nào khi kết hợp với adj mà xác định được kiểu quan hệ giữa adj và ej thì quá trình dừng, ngược lại qua Bước 2. Bước 2: Xét các thực thể ei nằm ở trước adj. Bằng giải thuật trên, chúng ta xác định được kiểu quan hệ giữa tính từ adj và e nếu giữa chúng có mối quan hệ với nhau trong ngữ cảnh của câu truy vấn. Quá trình được áp dụng tương tự cho tất cả các cặp tính từ, thực thể trong câu truy vấn. Các kiểu quan hệ tìm được sẽ được thêm vào danh sách quan hệ RELATION. Việc xác định kiểu quan hệ được làm bằng cách ứng với mỗi bộ hai xạ thành lập từ điển (Tập luật) và heuristic, tương tự quá trình ánh xạ bộ ba thành khái quát bằng lược đồ Hình 4.5. 31 Chi tiết cho lược đồ tại Hình 4.5 được diễn dịch như sau: Xét mối quan hệ có dạng: [ADJ] – [E, S] với: o ADJ là tính từ, o E là lớp của thực thể liên kết với tính từ được xem xét. o S là giá trị chuỗi ban đầu của thực thể E. Ta sẽ lần lượt xây dựng các ánh xạ sau đây: o Ánh xạ tính từ ADJ thành tập R1 các bộ ba quan hệ thể>. Ví dụ, tính từ famous tương ứng với tập các bộ ba quan hệ { SUBCLASSOF, PERSON>, o Ánh xạ (ADJ, E) thành tập R2 các bộ ba quan hệ có thể biểu diễn tính từ ADJ đối với thực thể E. Ví dụ, giữa tính từ famous và lớp 32 PERSON, ta có thể có các bộ ba sau: { MODEL>, o Ánh xạ (ADJ, S) thành R3 - tập các bộ ba có thể có nếu biết tính từ ADJ và giá trị chuỗi ban đầu S. Ví dụ, (famous, model) sẽ được ánh xạ thành tập quan hệ { Ta có thể dễ dàng nhận thấy R2, R3 đều là tập con của R1. Gọi R là mối quan hệ thật sự biểu diễn bộ hai thể xác định được quan hệ R nếu xây dựng đầy đủ cả ba tập hợp trên. Việc xây dựng tập ánh xạ R1, R2 và R3 được thực hiện bằng hệ thống luật. Chúng ta sẽ đi vào chi tiết về hệ thống luật này ở phần sau. Sau khi đã xác định được tất cả các quan hệ có trong câu truy vấn, bước này sẽ xây dựng đồ thị ý niệm mô tả câu truy vấn. Như ta đã phân tích ở trên, để mở rộng giải quyết cho những truy vấn hỏi về số lượng, truy vấn có tính từ, tính từ so sánh nhất, liên từ luận lý yêu cầu phải mở rộng CG. Phương pháp tiếp cận đã kế thừa và đồng thời hiệu chỉnh lại Bước 12 (Xây dựng đồ thị ý niệm) trong kết quả nghiên cứu của tác giả [18] để biểu diễn được những thành phần mới bổ sung của đồ thị ý niệm mở rộng. Chúng ta sẽ đi vào chi tiết về cách lưu trữ và hiển thị đồ thị ý niệm ở phần tiếp theo sau. Như Mục 4.2.9 của Chương 4 đã phân tích, để xây dựng tập luật ánh xạ R3 và R4 ta cần phải xây dựng một hệ thống luật tổng quát, sao cho ta có thể dễ dàng mô tả thêm các luật mới nhưng vẫn không ảnh hưởng tới hệ thống. Như vậy nó sẽ làm cho hệ thống có tính tổng quát hơn, không bị bó buộc trên tập luật xác định nào đó. Để đạt được mục tiêu trên, ta sẽ xây dựng tập luật theo định dạng XML. Mỗi luật trong hệ thống luật sẽ có dạng như sau: 33 “Nếu [điều kiện] thì [hành động]” Trong đó phần điều kiện có những đặc tính sau: Có ràng buộc về tên lớp thực thể, giá trị chuỗi ban đầu và kiểu thực thể. Có thể xét một quan hệ hoặc nhiều quan hệ đồng thời. Phần hành động có những đặc tính sau: Cho phép thay đổi các giá trị về tên lớp, thay đổi định danh thực thể và xác định loại quan hệ. Xóa thực thể hoặc quan hệ. Phần này trình bày cấu trúc của tập luật dùng để ánh xạ bộ ba quan hệ thành quan hệ ngữ nghĩa. Hệ thống luật được định nghĩa trong một tập tin XML, trong đó mỗi thành phần (Element) sẽ được mô tả theo định dạng DTD (Document Type Definition) như sau:
Thành phần root của tập tin là TransformRules, trong đó chứa nhiều thành phần rule. Từ khóa ELEMENT được dùng để mô tả cấu trúc của một thành phần; từ khóa ATTLIST được dùng để mô tả các thuộc tính của một thành phần; CDATA mô tả kiểu dữ liệu chuỗi cho thuộc tính; #REQUIRED dùng mô tả tính chất bắt buộc của thuộc tính; #IMPLIED dùng mô tả tính chất không bắt buộc của thuộc tính. DTD dùng các ký hiệu “*”, “+” và “?” dùng để chỉ số lượng của một thành phần trong thành phần cha của nó. Ý nghĩa của mỗi ký hiệu như sau: 34 Dấu “*”: xuất hiện từ 0 đến n Dấu “+”: xuất hiện từ 1 đến n Dấu “?”: xuất hiện 0 hoặc 1 Định nghĩa thành phần TransformRules ở Hình 4.6, chỉ ra thành phần này có thể chứa nhiều thành phần rule, thành phần rule chứa hai thành phần premiselist và consequentlist. Ngoài ra, thành phần rule còn có hai thuộc tính là name và priority dùng để mô tả tên luật và độ ưu tiên của luật. Chúng ta sẽ lần lượt tìm hiểu cấu trúc các thành phần con trong thành phần rule tiếp theo sau đây. Mỗi luật bao gồm hai phần: điều kiện và hành động. Phần điều kiện của luật được mô tả bằng thành phần premiselist, là con của thành phần rule. Thành phần premiselist bao gồm một hay nhiều thành phần premise, Hình 4.7 mô tả cấu trúc của một thành phần premise. Mỗi thành phần premise gồm có ba thành phần con là subject, relation và object tương ứng với một bộ ba mà ta đã thảo luận ở phần trên. Ý nghĩa của các thuộc tính trong các thành phần này được thể hiện trong Bảng 4.1. Ví dụ minh hoạ đặc tả thành phần premise có thể thấy tại Hình 4.8. Tên thuộc tính Đặc tả var Thuộc tính này dùng để đặt tên biến cho các thành phần,
nhằm phân biệt các thành phần value Giá trị chuỗi ban đầu của thực thể. Ta có thể liệt kê tập các
giá trị trong đó các thành phần cách nhau bằng dấu phẩy. className Thuộc tính ràng buộc tên lớp thực thể classType Thuộc tính dùng để ràng buộc kiểu thực thể như UE, IE Nếu một bộ ba nào đó thỏa mãn thành phần điều kiện luật thì hành động luật consequent sẽ được áp dụng cho bộ ba đó. Cấu trúc của thành phần hành động được mô tả như Hình 4.9. 35 Các thuộc tính của thành phần hành động cũng giống như phần tử điều kiện đã được mô tả trong Bảng 4.2. Ngoài ra, thành phần hành động còn có hai thuộc tính mới là quantifier và delete, thuộc tính quantifier dùng để gán giá trị định danh cho lớp, thuộc tính delete dùng để yêu cầu xóa thành
phần đó. Hình 4.11 là ví dụ minh họa đặc tả một luật hoàn chỉnh. Trong phần này ta sẽ xem xét một số trường hợp đặc biệt, các luật này được dùng cho bước gom các thực thể có cùng ngữ nghĩa trong câu truy vấn. Ví dụ câu truy vấn “Who was the president of Vichy France?”, các từ who và president đều biểu diễn cho thực thể không tên thuộc lớp PERSON, và chúng cách nhau bởi từ quan hệ was. Do đó who và president được gom lại thành một thực thể duy nhất. Luật đặc biệt cũng có cấu trúc như luật thường nhưng nó có độ ưu tiên là -1. 36 Trong Ontology có rất nhiều quan hệ tương tự nhau như HASFATHER, HASMOTHER, HASCHILD, HASSISTER… Nếu ta áp dụng cấu trúc tập luật như đã nêu để xây dựng cho từng quan hệ này thì tập luật sinh rất giống nhau và rất dài dòng, nhiều thuộc tính ta không dùng tới. Nhằm giúp cho quá trình đặc tả luật đơn giản hơn và tăng tốc trong quá trình xử lý, ta sẽ lập từ điển cho những cấu trúc này. Chúng ta sẽ đi vào chi tiết cấu trúc của tập tin từ điển mà sẽ được trình
bày ngay sau đây. Tập tin từ điển cũng được xây dựng theo định dạng XML. Hình 4.12 mô tả một thể hiện của tập tin từ điển. Trong cách thể hiện này, thành phần cao nhất của tập tin từ điển là dictionary, thành phần dictionary bản thân nó sẽ chứa tập các entry, trong đó mỗi entry với các thuộc tính subjvalue, relvalue, relation, dir sẽ thể hiện một luật. Các thuộc tính vừa nêu của thành phần entry sẽ được mô tả chi tiết trong Bảng 4.2. 37
Tên thuộc tính subjvalue
relvalue
objvalue
relation dir Đặc tả
Giá trị chuỗi ban đầu của chủ thể
Giá trị chuỗi ban đầu của quan hệ
Giá trị chuỗi ban đầu của khách thể
Quan hệ sẽ áp dụng cho bộ ba nếu thỏa điều kiện
Xác định chiều quan hệ, “1” từ chủ thể đến khách thể,
ngược lại có giá trị là 2 38 Kết quả phương pháp đề nghị trong đề tài được tiến hành đánh giá trên các câu truy vấn của tập dữ liệu mẫu TREC 2002 (Text REtrieval Conference). TREC được tổ chức lần đầu tiên vào năm 1992 bởi viện NIST (National Institute of Standards and Technology) và Bộ Quốc Phòng Mỹ. Mục tiêu của nó là hỗ trợ cho các nghiên cứu trong lĩnh vực rút trích thông tin bằng việc cung cấp một nền tảng cần thiết cho việc đánh giá các phương pháp rút trích thông tin [15]. TREC bao gồm nhiều lĩnh vực nghiên cứu rút trích thông tin khác nhau, gọi là các track. Mỗi track được cung cấp một tập các dữ liệu, các bài toán mẫu để kiểm tra. Tùy vào từng track, tập dữ liệu kiểm tra có thể là câu hỏi, đoạn văn, hoặc là các đặc điểm có thể rút trích. Tập các câu hỏi mẫu được dùng trong đề tài lấy từ Question Answering Track của tập dữ liệu mẫu TREC 2002. Mục tiêu của Question Answering Track là đạt được việc rút trích thông tin từ các văn bản mẫu bằng việc trả lời các câu hỏi bằng ngôn ngữ tự nhiên. Đề tài sử dụng 440 câu truy vấn về thực thể có tên của TREC 2002, bao gồm: 201 câu hỏi What; 3 câu hỏi Which; 62 câu hỏi Where; 67 câu hỏi Who; 45 câu hỏi When; 38 câu hỏi How và 24 câu hỏi không bắt đầu bằng từ để hỏi. Các lỗi khi dịch sang đồ thị ý niệm thuộc vào các trường hợp sau: Lỗi do quá trình nhận diện thực thể: GATE có thể không nhận diện được chính xác thực thể có trong câu truy vấn. Lỗi dạng này được ký hiệu là R-Error. Lỗi do thiếu thực thể, thiếu lớp thực thể, cũng như thiếu quan hệ trên Ontology. Lỗi này cũng bao gồm các câu truy vấn có quan hệ nhiều hơn hai ngôi. Lỗi này được ký hiệu là O- Error. Ví dụ: “What year did Canada join the United Nations?”. Lỗi do đồ thị ý niệm thông thường không biểu diễn đầy đủ ngữ nghĩa của câu truy vấn như là những câu truy vấn có chứa trạng từ, những câu truy vấn hỏi về kiểu quan hệ. Lỗi này được ký hiệu là Q-Error. Ví dụ các câu: “At Christmas time, what is the traditional thing to do under the mistletoe?”, “How was Teddy Roosevelt related to FDR?”. 39 Lỗi do phương pháp xây dựng đồ thị ý niệm. Đó là mặc dù GATE nhận diện chính xác thực thể, từ quan hệ và các quan hệ trong câu cũng tồn tại trên Ontology, nhưng đồ thị ý niệm không xây dựng được hoặc xây dựng không chính xác. Các lỗi này có thể do xác định không đúng lớp của thực thể chưa xác định lớp, lỗi do gom sai thực thể, lỗi do thêm từ quan hệ không phù hợp hoặc lỗi do bước hiệu chỉnh quan hệ ngữ nghĩa. Các lỗi này được ký hiệu là M-Error. Bảng 4.3 là thống kê kết quả thực nghiệm đã đạt được từ kết quả nghiên cứu của tác giả [18]. Số truy vấn còn tồn đọng mà phương pháp của tác giả chưa giải quyết là 92 câu với các lỗi được phân bố như sau: R-Error M-Error Q-Error O-Error Chính xác Tổng cộng Loại câu
How many
Tính từ
Tính từ so sánh nhất
Liên từ luận lý
Loại khác
Tổng cộng 0
0.00% 1
7
8
1.82% 12
6
14
1
2
35
7.95% 3
21
25
49
11.14% 0
0.00% 16
6
35
1
34
92
20.91% (%) Sau khi áp dụng phương pháp đề nghị, cùng với bổ sung thêm 11 thực thể có tên, 20 thực thể không tên, 5 từ quan hệ vào cơ sở tri thức, ta có kết quả như trình bày ở Bảng 4.4. R-Error M-Error Q-Error O-Error Chính xác Tổng cộng Loại câu
How many
Tính từ
Tính từ so sánh nhất
Liên từ luận lý
Loại khác
Tổng cộng 0
0.00% 1
3
4
0.91% 1
2
3
0.68% 7
4
22
26
59
13.41% 7
2
13
1
3
26
5.91% 16
6
35
1
34
92
20.91% (%) Từ bảng kết quả thực nghiệm trên, ta có nhận xét là sau khi áp dụng phương pháp đề nghị, số lượng lỗi Q-Error giảm, tuy nhiên có bất thường là lỗi O-Error lại tăng lên. Điều này là do các truy 40 vấn lỗi Q-Error thực chất có bao hàm trong nó lỗi O-Error (do thiếu một số lớp và quan hệ trong Ontology) hoặc lỗi M-Error (do phương pháp còn hạn chế chưa giải quyết được). Cho nên sau khi áp dụng phương pháp đề nghị, một số truy vấn mặc dù đã được giải quyết lỗi thuộc về Q-Error nhưng những lỗi thuộc về O-Error hoặc M-Error đã tồn tại từ trước nên vẫn còn tồn đọng và do đó một số lượng lỗi Q-Error sẽ được phân loại lại thành lỗi O-Error hoặc lỗi M-Error. Đây là nguyên nhân làm cho số lượng lỗi O-Error và M-Error sau khi áp dụng phương pháp đề nghị tăng lên. Cuối cùng, sau khi bổ sung thêm 33 lớp thực thể, 23 quan hệ còn thiếu vào Ontology, ta có kết quả như trình bày tại Bảng 4.5. R-Error M-Error Q-Error O-Error Chính xác Tổng cộng Loại câu
How many
Tính từ
Tính từ so sánh nhất
Liên từ luận lý
Loại khác
Tổng cộng 0
0.00% 1
3
4
0.91% 1
2
3
0.68% 3
21
20
44
10.00% 11
6
14
1
9
41
9.32% 16
6
35
1
34
92
20.91% (%) Trong 51 câu truy vấn không giải quyết được ta có 44 câu thuộc về lỗi O-Error, 3 câu thuộc về lỗi Q-Error và 4 câu thuộc về lỗi M-Error. Đối với 44 trường hợp lỗi O-Error, tất cả các câu truy vấn này đều thuộc về truy vấn chứa quan hệ ba ngôi. Trong 3 lỗi thuộc về Q-Error có 1 truy vấn mà nội dung truy vấn liên quan tới kiểu quan hệ chứ không phải thực thể, chúng tôi tạm gọi đây là “Queried relation”, 1 câu truy vấn có trạng từ hoặc nhân tố thời gian trong câu, chúng tôi tạm gọi những câu truy vấn loại này là “Adverb/Temporal query”, 1 truy vấn có kiểu quan hệ ẩn trong danh từ chứ không phải động từ. Ta sẽ đi vào phân tích chi tiết các trường hợp lỗi nêu trên. Đối với lỗi “Queried relation”, ta xét câu truy vấn sau: “How was Teddy Roosevelt related to FDR?”. Đối với câu truy vấn này, nội dung truy vấn sẽ chỉ vào quan hệ giữa thực thể Teddy 41 Roosevelt và thực thể FDR. Tuy nhiên phương pháp đề nghị trong đề tài chỉ hỗ trợ truy vấn các thực thể không tên hoặc các thuộc tính của thực thể chứ chưa hỗ trợ truy vấn cho kiểu quan hệ. Điều này là nguyên nhân dẫn đến lỗi “Queried relation”. Để giải quyết các truy vấn “Queried relation”, phương pháp đề xuất mở rộng phạm vi biểu diễn truy vấn mà cho phép truy vấn vào kiểu quan hệ. Ví dụ, với câu truy vấn trên, một biểu diễn đề nghị sẽ có dạng như sau, trong đó tham chiếu nghi vấn (“?”) được đặt vào quan hệ Relation: Tiếp theo ta tiến hành phân tích lỗi “Adverb/Temporal query”, ta xét câu truy vấn sau: “At Christmas time, what is the traditional thing to do under the mistletoe?”. Đối với câu truy vấn này, ngữ cảnh của câu truy vấn sẽ bị giới hạn bởi nội dung của trạng từ “At Christmas time”. Để giải quyết được các lỗi “Adverb/Temporal query”, phương pháp đề nghị cần phải hỗ trợ được khả năng biểu diễn được trạng từ trong câu truy vấn, các ràng buộc về ngữ cảnh của câu truy vấn. Ví dụ, với câu truy vấn trên, một biểu diễn đề nghị sẽ có dạng như sau: Ta xét câu truy vấn có quan hệ là một danh từ, mà không phải động từ như sau: “How many highway miles to the gallon can you get with the Ford Fiesta?”. Ta thấy trong câu truy vấn này, danh từ “gallon” trong câu là nhân tố để xác định được thuộc tính số mile mà thực thể Ford Fiesta đi được trong một gallon nguyên liệu. Như ta đã phân tích, phương pháp đề nghị trong luận văn này chỉ dùng các từ quan hệ (động từ, giới từ) làm chiếc cầu nối để xác định kiểu quan hệ trong câu truy 42 vấn. Do đó để có thể giải quyết câu truy vấn lỗi thuộc loại này, phương pháp đề nghị cần phải mở rộng từ quan hệ bao hàm luôn cả các danh từ. Đối với các lỗi về M-Error, nguyên nhân là do phương pháp không thể phân biệt được chính xác từ quan hệ và thực thể đối với một số từ vựng tiếng Anh. Thật vậy, ta xét câu truy vấn sau: “How many home runs did Babe Ruth hit in his lifetime?”. Trong câu truy vấn này, mô đun chú giải không thể phân biệt được “hit” là một động từ hay một danh từ, do đó dẫn đến chú giải sai: từ quan hệ trở thành thực thể hoặc ngược lại. Một giải pháp có thể để khắc phục lỗi này đó là ta có thể dùng thêm các mô đun nhận dạng từ loại (động từ, danh từ, tính từ,…), ví dụ như Wordnet, SynTag, để hỗ trợ thêm thông tin cho mô đun chú giải đưa ra chú giải chính xác hơn. Đối với ví dụ như trên, mô đun nhận dạng từ loại sẽ cho biết “hit” là một động từ, do đó mô đun chú giải có thể biết được trong trường hợp này “hit” cần được chú giải là từ quan hệ chứ không phải là một thực thể. Theo kết quả trên, nếu không xét đến các lỗi O-Error và Q-Error, độ chính xác của phương pháp đã được cải thiện thêm 9.32% so với kết quả nghiên cứu của tác giả [18]. Ngoài ra, phương pháp đề nghị trong luận văn này tương thích và không gây nhiễu các kết quả đã đạt được từ nghiên cứu [18]. Điều này có nghĩa là cùng với 41 câu truy vấn đã được giải quyết như trong các bản báo cáo vừa nêu, tất cả 348 câu truy vấn đã được giải quyết bởi tác giả [18] vẫn giữ nguyên giá trị. Ta có tổng kết kết quả đạt được của phương pháp đề nghị đối với toàn bộ tập câu hỏi mẫu TREC 2002 được trình bày tại Bảng 4.6. R-Error M-Error Q-Error O-Error Chính xác Tổng cộng Loại câu
How many
Tính từ
Tính từ so sánh nhất
Liên từ luận lý
Loại khác
Tổng cộng 0
0.00% 1
3
4
0.91% 1
2
3
0.68% 3
21
20
44
10.00% 11
6
14
1
357
389
88.41% 16
6
35
1
382
440
100.00% (%) Bảng báo cáo 4.6 chỉ ra độ chính xác của phương pháp đối với tập câu hỏi mẫu TREC 2002 thu được là 88.41%. 43 Phương pháp đề nghị trong đề tài cũng được áp dụng cho một tập mẫu khác, là tập TREC 2007. Tập câu truy vấn TREC 2007, bao gồm 173 câu hỏi What; 15 câu hỏi Which; 13 câu hỏi Where; 57 câu hỏi Who; 13 câu hỏi When; 56 câu hỏi How và 118 câu hỏi không bắt đầu bằng từ để hỏi. Bảng 4.7 là kết quả thực nghiệm đã đạt được từ kết quả nghiên cứu của tác giả [18] trên tập TREC 2007. R-Error M-Error Q-Error O-Error Chính xác Tổng cộng Loại câu
How many
Tính từ
Tính từ so sánh nhất
Liên từ luận lý
Loại khác
Tổng cộng 0
0.00% 2
2
0.45% 47
5
6
7
3
68
15.28% 16
16
1
70
103
23.15% 0
0.00% 63
5
22
8
75
173
38.88% (%) Sau khi áp dụng phương pháp đề nghị, cùng với bổ sung thêm 14 thực thể có tên, 57 thực thể không tên, 17 từ quan hệ vào cơ sở tri thức, ta có kết quả như trình bày ở Bảng 4.8. Cuối cùng, sau khi bổ sung thêm 64 lớp thực thể, 36 quan hệ còn thiếu vào Ontology, ta có kết quả như trình bày tại Bảng 4.9. R-Error M-Error Q-Error O-Error Chính xác Tổng cộng Loại câu
How many
Tính từ
Tính từ so sánh nhất
Liên từ luận lý
Loại khác
Tổng cộng 0
0.00% 3
3
0.67% 12
3
15
3.37% 35
4
19
2
67
127
28.54% 16
1
3
3
5
28
6.29% 63
5
22
8
75
173
38.88% (%) Trong 108 câu truy vấn không giải quyết được ta có 89 câu thuộc về lỗi O-Error, 15 câu thuộc về lỗi Q-Error và 3 câu thuộc về lỗi M-Error. 44 Trong 15 lỗi thuộc về Q-Error có 1 truy vấn “Queried relation”, 1 câu truy vấn “Adverb/Temporal query”, 2 truy vấn phụ thuộc vào ngữ cảnh, nghĩa là các đối tượng được truy vấn không xác định được tại câu truy vấn mà nó thuộc về một câu khác, chúng tôi tạm gọi là “Context query”, và 10 câu truy vấn phức tạp mà phương pháp không giải quyết được. Đối với các lỗi “Queried relation” và “Adverb/Temporal query”, ta đã phân tích ở kết quả thực nghiệm của TREC 2002, ta sẽ chỉ phân tích vào lỗi mới xuất hiện trên TREC 2007 đó là “Context query”. R-Error M-Error Q-Error O-Error Chính xác Tổng cộng Loại câu
How many
Tính từ
Tính từ so sánh nhất
Liên từ luận lý
Loại khác
Tổng cộng 0
0.00% 3
3
0.67% 12
3
15
3.37% 16
1
16
1
56
89
20.00% 35
4
6
4
16
66
14.83% 63
5
22
8
75
173
38.88% (%) Ta xét một câu truy vấn “Context query” như sau: “What was the previous world record time?”. Ta thấy câu truy vấn chỉ chứa một thực thể duy nhất là “word record time” và ta thiếu thông tin để biết thực thể “word record time” trong câu truy vấn đang nói về vấn đề gì. Để có đầy đủ thông tin cần thiết, yêu cầu phải cung cấp ngữ cảnh, trong trường hợp này là những câu hay đoạn văn có nội dung liên quan với câu hỏi. Vấn đề này đòi hỏi phương pháp phải có cơ chế để liên kết các thực thể trong câu truy vấn đối với các thực thể thích hợp trong ngữ cảnh. Đây là một vấn đề khó, cần phải có những nghiên cứu sâu hơn. Những lỗi thuộc về M-Error cũng có cùng nguyên nhân do phương pháp không phân biệt được từ quan hệ và thực thể đối với một số từ vựng tiếng Anh như chúng tôi đã phân tích ở trường hợp kết quả thực nghiệm trên tập TREC 2002. Theo kết quả thực nghiệm, nếu không xét đến các lỗi O-Error và Q-Error, độ chính xác của phương pháp đã được cải thiện thêm 14.61% so với kết quả nghiên cứu của tác giả [18]. Cũng như đối với tập câu hỏi mẫu TREC 2002, phương pháp đề nghị trong luận văn cũng tương thích và không gây nhiễu các kết quả đã đạt được từ nghiên cứu [18] khi thử nghiệm trên tập câu hỏi 45 mẫu TREC 2007. Cùng với 66 câu truy vấn đã được giải quyết như trong các bản báo cáo vừa nêu, tất cả 272 câu truy vấn đã được giải quyết bởi tác giả [18] vẫn giữ nguyên giá trị. Bảng 4.10 là bảng tổng kết kết quả đạt được của phương pháp đề nghị đối với toàn bộ tập câu hỏi mẫu TREC 2007. Độ chính xác của phương pháp đối với tập câu hỏi mẫu TREC 2002 thu được sẽ là 75.96%. R-Error M-Error Q-Error O-Error Chính xác Tổng cộng Loại câu
How many
Tính từ
Tính từ so sánh nhất
Liên từ luận lý
Loại khác
Tổng cộng 0
0.00% 3
3
0.67% 12
3
15
3.37% 16
1
16
1
56
89
20.00% 35
4
6
4
289
338
75.96% 63
5
22
8
348
446
100% (%) Sau khi xem xét tổng thể kết quả thực nghiệm trên hai tập mẫu TREC 2002, TREC 2007 ta thấy phương pháp đề nghị chỉ còn hạn chế chủ yếu đối với các truy vấn có quan hệ nhiều hơn 3 ngôi. Nguyên nhân của các lỗi này là do tính không đầy đủ của Ontology. Một trong những giải pháp có thể có để giải quyết cho vấn đề này đã được đề cập tại Mục 1.2, Chương 1 và chúng tôi đã nêu ra thành một bài toán khác mà trong phạm vi của đề tài chúng tôi sẽ không giải quyết. 46 Ứng dụng web phía client được hiện thực dưới dạng JSP. Người dùng cung cấp đầu vào, gửi yêu cầu cho server và nhận trả lời từ server. Người dùng có thể sử dụng 1 trong 3 dịch vụ: Câu truy vấn ngôn ngữ tự nhiên. Tìm kiếm mở rộng. Lựa chọn thực thể thỏa truy vấn để tìm tài liệu. Ứng dụng client sử dụng các dịch vụ chính sau: Kiểu trả Tên dịch vụ Đặc tả về String parse(String query) Trả về đồ thị ý niệm từ câu truy vấn tiếng Việt Web service operation String lucene(String query) Trả về các thực thể thỏa truy vấn Web service operation String getDocuments(String Trả về các tài liệu thỏa truy vấn dựa trên API query của query) Semantic Lucene Web service operation 47 Dưới đây trình bày giao diện của một số lớp chính trong các khối:
Khối nhận diện thực thể và từ quan hệ:
Lớp ENSearch Kiểu trả về Tên phương thức Đặc tả String GetAnnotation (String
query, QueryBuffer
output) String Kết nối vào KIM để nhận diện thực thể có tên trong câu
query, chèn vào bộ đệm output.
Dùng Gate để nhận diện thực thể không tên và từ quan
hệ, tính từ, liện từ luận lý có trong câu query, chèn vào bộ
đệm output
Trả về namespace của lớp truyền vào dưới dạng chuỗi getNS (String
classname) String runSeRQL (String
query) Kết nối vào KB của KIM, thực thi câu lệnh SeRQL để
tìm các thực thể thỏa mãn truy vấn Khối phân tách câu truy vấn nguyên tử: Lớp QuerytoCG Tên phương thức Đặc tả Kiểu
trả về
void splitQueryToAtomicQuery(String fullQuery,
List Tách câu truy vấn có AND, OR,
NOT (đã được nhận diện thành
phần) thành danh sách các câu truy
vấn nguyên tử. Danh sách này là
tham số “result” 48 Khối xác định quan hệ đỉnh: Lớp QuerytoCG Đặc tả Kiểu trả về
TopRelationType Tên phương thức
identifyTopRel(QueryBuffer
buf) Nhận diện quan hê đỉnh là “COUNT”,
“MAX”, “MIN”, “MOST”, hayt “AVERAGE” Khối hiệu chỉnh tập thực thể và từ quan hệ: Lớp ProcessingXML Kiểu trả về Tên phương thức Đặc tả FindClassofAgent(QueryBuffer buffer) Xác định lớp của “What” void CombineEntitys(QueryBuffer buffer) Gom các thực thể cùng ngữ nghĩa void AddRealtion(QueryBuffer buffer) Thêm từ quan hệ giữa các thực thể void Khối xác định quan hệ ngữ nghĩa giữa thực thể và từ quan hệ: Lớp ProcessingQuery Kiểu trả về Tên phương thức Đặc tả QueryTriple ProcessQuery2Triple(QueryBu
ffer buffer) TripleType Sử dụng các thực thể có tên,
không tên, từ quan hệ đã nhận
biết được để sinh ra các bộ ba
quan hệ. Giá trị trả về là các tập
các bộ ba quan hệ.
Tìm bộ 3 bằng cách kiểm tra
tập luật CheckRE(ItemType subject,
ItemType relation, ItemType
object) 49 TripleType Tìm bộ 3 bằng phương pháp
giao InterRE(ItemType subject,
ItemType relation, ItemType
object) Khối xác định quan hệ ngữ nghĩa giữa tính từ và thực thể: Lớp ProcessingQuery Kiểu trả về Tên phương thức Đặc tả void processQuantitativeAdjective(
QueryTriple tripleset,
QueryBuffer buffer) void processQuanlitativeAdjective(
QueryTriple tripleset,
QueryBuffer buffer) Sử dụng các tính từ định lượng
(thường, so sánh nhất, so sánh hơn)
đã nhận biết được để sinh ra các bộ ba
quan hệ. Tập các bộ ba quan hệ kết
quả là “tripleset”
Sử dụng các tính từ định lượng
(thường, so sánh nhất) đã nhận biết
được để sinh ra các bộ ba quan hệ.
Tập các bộ ba quan hệ kết quả là
“tripleset Khối xây dựng đồ thị ý niệm: Lớp QueryOutput Kiểu trả về Tên phương thức Đặc tả String generatelistJsCG(ListCG lsCG) Tạo đồ thị cho toàn bộ câu truy vấn dưới dạng JavaScript String Tạo đồ thị con dưới dạng
JavaScript generateJsCG(QueryBuffer
buffer, int currentleft, int
currentTop, boolean
isCoverByBox) 50 Khối sinh câu truy vấn SeRQL Lớp SeRQLMapping Tên phương thức Đặc tả Kiểu trả
về
String getSeRQLQuery(QueryBuffer
buffer) Sinh ra câu SeRQL cho từng câu truy vấn nguyên
tử. Trả về dưới dạng String. Lớp QuerytoCG Tên phương thức Đặc tả Kiểu
trả về
String appendWhereClauseForSQTA(String query, QueryBuffer
buf, TopRelationType topRe) String appendOrderByClause(String query, QueryBuffer buf) String appendWhereClauseForCQTA(String query,
QueryBuffer buf) Thêm các phần cần thiết vào câu
SeRQL truyền vào để xử lý
trường hợp có tính từ định lượng
so sánh nhất. Trả về câu SeRQL
đã được chỉnh sửa
Thêm các phần cần thiết vào câu
SeRQL truyền vào để xử lý
trường hợp có tính từ định lượng
ở dạng nguyên mẫu. Trả về câu
SeRQL đã được chỉnh sửa
Thêm các phần cần thiết vào câu
SeRQL truyền vào để xử lý
trường hợp có tính từ định lượng
so sánh hơn. Trả về câu SeRQL
đã được chỉnh sửa Ta sẽ xây dựng tập luật theo định dạng XML. Dạng chung của mỗi luật trong hệ thống luật như sau: “Nếu [điều kiện] thì [hành động]” Trong đó, vế điều kiện có những đặc điểm sau: 51 Có ràng buộc về tên lớp, giá trị chuỗi ban đầu và kiểu thực thể. Có thể xét nhiều quan hệ đồng thời trong cùng một luật. Phần hành động có những đặc tính sau: Có thể thay đổi tên lớp, thay đổi định của danh thực thể và xác định loại quan hệ. Xóa thực thể hoặc quan hệ khỏi buffer. Các phần sau trình bày cấu trúc của tập luật dùng để ánh xạ bộ ba quan hệ thành quan hệ ngữ nghĩa. Hệ thống luật được định nghĩa trong một tập tin XML, và mô tả theo định dạng DTD (Document Type Definition) như sau: Thành phần gốc (root element) của tập tin là TransformRules, mỗi TransformRules chứa nhiều
thành phần (element) rule. [hình tham khảo HA] Trong ví dụ trên, từ khóa ELEMENT được dùng để khai báo cấu trúc của một thành phần; từ khóa ATTLIST được dùng để mô tả các thuộc tính của một thành phần; CDATA mô tả kiểu dữ liệu chuỗi cho thuộc tính; #REQUIRED dùng mô tả tính chất bắt buộc của thuộc tính; #IMPLIED dùng mô tả tính chất không bắt buộc của thuộc tính. DTD dùng các ký hiệu “*”, “+” và “?” dùng để chỉ số lượng của một thành phần con trong thành phần cha của nó. Ý nghĩa của mỗi ký hiệu như sau: Dấu “*”: xuất hiện từ 0 đến n Dấu “+”: xuất hiện từ 1 đến n Dấu “?”: xuất hiện 0 hoặc 1 52 Theo định nghĩa trên, TransformRules có thể chứa nhiều thành phần rule, mỗi rule chứa hai thành phần là premiselist và consequentlist. Ngoài ra, thành phần rule còn có thuộc tính là name và priority, lần lượt để mô tả tên luật và độ ưu tiên của luật. Cấu trúc các thành phần con trong thành phần rule sẽ được mô tả rõ hơn theo sau đây. Như đã được nhắc đến ở đầu chương này, mỗi luật bao gồm hai phần: điều kiện và hành động. Phần điều kiện của luật được mô tả bằng thành phần premiselist, là con của thành phần rule. Mỗi premiselist bao gồm một hay nhiều thành phần premise, hình dưới mô tả cấu trúc của một thành phần premise. Mỗi premise gồm có 3 thành phần con là subject, relation và object tương ứng với một bộ ba mà ta đã thảo luận ở phần trên. Ý nghĩa của các thuộc tính trong các thành phần này được
thể hiện trong hình dưới: [hình tham khảo HA] Tên thuộc tính Đặc tả var Thuộc tính này dùng để đặt tên biến cho các thành phần,
nhằm phân biệt các thành phần value Giá trị chuỗi ban đầu của thực thể. Ta có thể liệt kê tập các
giá trị trong đó các thành phần cách nhau bằng dấu phẩy. 53 className Thuộc tính ràng buộc tên lớp thực thể classType Thuộc tính dùng để ràng buộc kiểu thực thể như UE, IE Nếu một bộ ba nào đó thỏa mãn thành phần điều kiện, thì phần hành động consequent sẽ được áp dụng cho bộ ba đó. Cấu trúc của thành phần hành động được mô tả như dưới. Các thuộc tính của thành phần hành động cũng giống như phần tử điều kiện đã được mô tả trong bảng ở phần 5.2.2. Ngoài ra, thành phần hành động còn có hai thuộc tính mới là quantifier và delete, thuộc tính quantifier dùng để gán giá trị định danh cho lớp, thuộc tính delete dùng để yêu cầu xóa
thành phần đó. [hình tham khảo HA] Hình sau đây là ví dụ minh họa đặc tả một luật hoàn chỉnh: 54 [hình tham khảo HA] Ngoài ra, ta sẽ cần một số luật đặc biệt, các luật này được dùng cho bước gom các thực thể có cùng ngữ nghĩa trong câu truy vấn. Ví dụ câu truy vấn “Who was the president of Vichy France?”, các từ who và president đều biểu diễn cho thực thể không tên thuộc lớp PERSON, và chúng cách nhau bởi từ quan hệ was. Do đó who và president được gom lại thành một thực thể duy nhất. Luật đặc biệt cũng có cấu trúc như luật thường nhưng nó có độ ưu tiên là -1. Trước khi hiển thị kết quả ra màn hình, chương trình dùng cấu trúc dữ liệu như sau để lưu trữ đồ thị ý niệm trong bộ nhớ: 55 [hình tham khảo HA] Cấu trúc dữ liệu trên sẽ gồm một mảng các phần tử. Mỗi phần tử có vùng lưu trữ Sub-CG chứa đựng thông tin để xây dựng đồ thị ý niệm nguyên tử (atomic conceptual graph), là đồ thị ý niệm mà không chứa liên từ luận lý trong câu truy vấn. “Các thông tin để xây dựng đồ thị ý niệm nguyên tử bao gồm thông tin về thực thể, kiểu quan hệ giữa các thực thể và chiều của quan hệ. Dữ liệu được lưu trong vùng lưu trữ Sub-CG sau đó sẽ được dùng để biểu diễn thành một đỉnh truy vấn con.” Mỗi phần tử có thuộc tính Next relation lưu trữ kiểu quan hệ giữa hai đỉnh truy vấn con liền nhau. Các giá trị có thể có của Next relation chính là kiểu quan hệ có thể có giữa hai đỉnh truy vấn con trong câu truy vấn có liên từ luận lý, cụ thể là UNION, INTERSECT, MINUS. “Thêm vào đó, cấu trúc dữ liệu có một thuộc tính Top relation để lưu trữ quan hệ gộp của câu truy vấn. Đó có thể là quan hệ COUNT đối với câu truy vấn có từ để hỏi là “How many”, hoặc quan hệ MIN, MAX đối với các truy vấn có tính từ so sánh nhất.” Từ cấu trúc dữ liệu nêu trên. Đồ thị ý niệm được hiển thị ra màn hình có dạng tổng quát như hình sau: 56 [hình tham khảo HA] “Trong đó, mỗi đỉnh truy vấn con được xây dựng từ vùng lưu trữ Sub-CG của mỗi thành phần trong cấu trúc lưu trữ. Quan hệ giữa các đỉnh truy vấn con (UNION, INTERSECT, MINUS) được xây dựng từ thuộc tính Next relation. Quan hệ gộp (COUNT, MAX, MIN) được xây dựng từ thuộc tính Top relation của cấu trúc lưu trữ. Đường liên kết nét đôi sẽ được nối từ quan hệ gộp vừa tạo tới thực thể câu truy vấn về số lượng trong trường hợp truy vấn “How many” hoặc nối tới biểu diễn tính từ nằm trong đỉnh truy vấn con tương ứng trong trường hợp câu truy vấn có chứa tính từ so sánh nhất.” Lấy một ví dụ cho phương pháp lưu trữ và hiển thị như phân tích nêu trên: câu truy vấn “Who was biographer and Samuel Johnsons's friend?”, hệ thống sẽ kết xuất ra đồ thị ý niệm như ví dụ sau: 57 [hình tham khảo HA] Dù đồ thị ý niệm là một ngôn ngữ vừa dễ hiểu với con người, vừa khả xử lý với máy tính, nhưng đồ thị ý niệm mới chỉ mang tính chất tham khảo, để kiểm tra sự chính xác của quá trình xử lý câu truy vấn. Bởi vì, đồ thị ý niệm chưa được sử dụng làm ngôn ngữ truy vấn trên bất cứ cơ sở dữ liệu ngữ nghĩa nào, nên máy tính không thể trực tiếp dùng đồ thị để tìm thực thể hay tài liệu. Vì vậy, trong chương này sẽ trình bày phương pháp dịch đồ thị sang ngôn ngữ SeRQL, là ngôn ngữ truy vấn sử dụng bởi cơ sở tri thức ngữ nghĩa. Một phần trong quá trình sinh câu SeRQL của hệ thống sẽ sử dụng lại giải thuật trước đây của VN-KIM Search [tham khảo Dũng], chỉ thêm vào những đoạn cần thiết để những câu truy vấn có tính từ. Giải thuật đã có của VN-KIM Search như sau: 58 Generalize the query CG For each relation in the generalized query CG do { Get all neighbour concepts of the current relation //process each concept sequentially For each concept do { if the concept is new //i.e. not processed before { if the concept referent is “?” or “*” { if the concept referent is “?” { Assign to it a variable starting with “x” //e.g x1, x2, x3,... Assign to it a label variable starting with “z” //e.g z1, z2, z3,... Append these variables to the SELECT clause Append the “rdfs:label” statement for this concept to the FROM clause } if the concept referent is “*” { Assign to it a variable starting with “y” //e.g y1, y2, y3,... } Append the “rdf:type” statement for this concept to the FROM clause Append the constrained property statements for this concept to the FROM clause Assign to the constrained properties variables starting with “p” //e.g p1, p2, p3,... Append the property constraints to the WHERE clause } //end of “?” or “*” if the concept referent is specific, assign to it its identifier as a dummy variable Remember this concept having been processed } }//end of if new 59 Assign to the current relation its URI Append the statement for the current relation with its neighbour concepts to the FROM clause } //process the disconnected concept nodes For each concepts that has not been visited yet, process it as above [hình tham khảo Dũng] Giải thuật đề tài này thêm vào để xử lý tính từ sẽ nhận kết quả của giải thuật trên làm đầu vào, rồi thêm những bộ phận cần thiết: Giải thuật cho tính từ bình thường (dạng nguyên mẫu): Truy vấn tất cả thực thể phù hợp và trả về theo một trật tự //Function: append ORDER BY clause for normal adjective to the input SeRQL Initialize new ORDER BY clause For each semantic relation generated from normal adjective { Append the its object’ variable to SELECT clause Identify the way of ordering //i.e DESC or ASC. Use a dictionary (XML file) Append to ORDER BY clause the variable of the relation’s object, and the way it is ordered } Giải thuật cho tính từ so sánh nhất: //Function: append WHERE clause for superlative adjective to the input SeRQL Initialize the WHERE, nested SELECT and nested FROM clause //select the value of all other entities which are also qualified, then use “>= ALL” or “<= ALL” to
//find the entity that has the maximum and minimum value 60 Identify whether “>= ALL” or “<=ALL” from the Top relation. Call this OP. Find the relation that is generated from superlative adjective { With its subject, create a new variable representing all others qualified entities. Call this the
temporary subject. Then use the temporary subject to append all constraints on the subject to the
nested FROM clause With its object, create a new variable representing all others qualified entities’ values. Call this
the temporary object. Append the temporary object to the nested SELECT clause. Append the statement of this relation to the nested FROM clause. But use the temporary subject
and temporary object as the 2 variables. Append to WHERE clause the object’s variable and the OP identified before. } Giải thuật cho tính từ so sánh hơn: //Function: append WHERE clause for comparative adjective to the input SeRQL Initialize the WHERE clause For every relation generated from comparative adjective { Append its subject’s variable to the WHERE clause Identify the comparative operator //i.e. “>” or “<”. Use a dictionary (XML file) Append comparative operator to the WHERE clause if its object is a named entity, append its object’s variable to the WHERE clause else if its object is a constant, append its object’s quantifier to the WHERE clause } 61 Đề tài đã kế thừa những ưu điểm của phương pháp dịch câu truy vấn bằng ngôn ngữ tự nhiên sang đồ thị ý niệm với hướng tiếp cận ít phụ thuộc cú pháp mà chỉ dựa vào thực thể cùng các quan hệ giữa các thực thể này trên Ontology của tác giả [18]: Không dựa vào văn phạm của câu truy vấn. Có thể dịch sang đồ thị ý niệm cho một câu truy vấn đầy đủ, các câu truy vấn có từ để hỏi, hoặc một đoạn câu. Thứ tự xuất hiện các thực thể và từ quan hệ trong câu là không quan trọng. Do đó phương pháp này cũng có thể dịch sang đồ thị ý niệm cho các câu sai văn phạm. Dễ dàng thực hiện cho ngôn ngữ khác khi có Ontology tương ứng. Phương pháp này không dựa trên phân tích cú pháp của câu truy vấn. Do đó, để dịch sang đồ thị ý niệm cho các câu truy vấn bằng các ngôn ngữ khác chỉ cần xây dựng một Ontology tương ứng và xây dựng danh sách các thực thể không tên và danh sách các từ quan hệ tương ứng trên ngôn ngữ đó. Phần tập luật và từ điển của hệ thống được hiện thực theo cấu trúc tổng quát định dạng XML, ta có thể dễ dàng mở rộng thêm luật cho hệ thống khi cần thiết mà không cần phải thay đổi hệ thống. Đồ thị ý niệm được trình bày một cách trực quan dưới dạng đồ họa. Bên cạnh đó, đề tài đã góp phần mở rộng giải quyết thêm những vấn đề còn hạn chế trong kết quả nghiên cứu của tác giả Cao Duy Trường [18] cho việc dịch các câu truy vấn hỏi về số lượng, các câu truy vấn có tính từ, tính từ so sánh nhất, liên từ luận lý. Vấn đề chuyển đổi câu truy vấn sang đồ thị ý niệm là vấn đề phức tạp, do đó chắc chắn hệ thống cũng không tránh khỏi những khuyết điểm, vì vậy đề tài nêu ra những hạn chế đồng thời cũng là phương hướng phát triển tiếp theo: 62 Có một số quan hệ phức tạp, là các quan hệ có ba ngôi, bằng đồ thị ý niệm đơn giản không thể thể hiện được đầy đủ ý nghĩa của các quan hệ đó, do đó cần nghiên cứu phương pháp biểu diễn các quan hệ này trên Ontology cũng như dùng đồ thị ý niệm lồng nhau để biểu diễn các quan hệ này. Đề tài còn hạn chế chưa giải quyết được những truy vấn hỏi vào kiểu quan hệ, những truy vấn có chứa trạng từ. Như đã được trình bày ở phần trên, mặc dù đề tài đã đề xuất hướng giải quyết cho những truy vấn loại này, tuy nhiên cần có những nghiên cứu thêm để giải quyết triệt để hơn. Ngoài ra, đề tài mới chỉ dừng lại ở việc giải quyết liên từ luận lý NOT giữa các mệnh đề, nhưng chưa giải quyết triệt để khi liên từ luận lý NOT tác động vào tính từ, cần có những nghiên cứu thêm về vấn đề này. 63 [1] Barriere, Caroline: From a children's first dictionary to a lexical knowledge base of conceptual graphs. Thesis (Ph.D.). Simon Fraser University (1997). [2] Bernstein, A., Kaufmann, E.: How Useful are Natural Language Interfaces to the
Semantic Web for Casual End-Users. In: Proceedings of the 6th International Symantic Web Conference (ISWC 2007). Busan, Korea (2007). [3] Cimiano, P., Haase, P., Heizmann, J.: Porting Natural Language Interfaces between Domains -- An Experimental User Study with the ORAKEL System. In: Proceedings of the International Conference on Intelligent User Interfaces (2007) 180 – 189. [4] Frithjof Dau, Joachim Hereth Correia, Technische Universität Darmstadt, Fachbereich Mathematik: Nested Concept Graphs with Cuts: Mathematical
Foundations. In: Proceedings of the 3rd International Conference (2004). [5] Hai H. Vo: Truy vấn tri thức bằng đồ thị khái niệm. Master Thesis. Faculty of Computer Science and Engineering, University of Technology. VietNam (2006). [6] Hensman, S.: Construction of Conceptual Graph representation of texts. In: Preceedings of Student Research Workshop. HLT-NAACL, Boston (2004) 49 – 54. [7] Kaufmann, E., Bernstein, A., Fischer, L.: NLP-Reduce: A "Naïve” but Domain- Independent Natural Language Interface for Querying Ontologies. Demo-Paper
at the 4th European Semantic Web Conference (2007) 1 – 2. 64 [8] Miller S., Fox H., Ranshaw L., Weischedel R.: A novel use of statistical parsing to extract information from text. NAACL (2000). [9] Sowa, J. F.: Conceptual graphs for a database interface. IBM Journal of Research and Development, Vol.20, No.4 (1976) 336 – 357. [10] Steffen Staab, Udo Hahn: Conceptualizing adjectives. In: Proceedings of the 21st Annual German Conference. (1997). [11] Steffen Staab, Udo Hahn: “TALL”, “GOOD”, “HIGH”--- Compared to what?
In: Proceedings of the 15th International Conference on Artificial Intelligence. Nagoya, Japan (1997). [12] Tablan, V., Damljanovic, D., Bontcheva, K: A Natural Language Query Interface
to Structured Information. In: Proceedings of the 5th European Semantic Web Conference. Lecture Notes in Artificial Intelligence, Vol. 5021. Springer -Verlag (2008) 361 – 375. [13] Tim Berners-Lee: Conceptual Graphs and the Semantic Web. Available at: http://www.w3.org/DesignIssues/CG.html (2001). [14] Thang L. Tran: Dịch câu truy vấn bằng ngôn ngữ tự nhiên sang đồ thị khái niệm. Master Thesis. Faculty of Computer Science and Engineering, University of Technology. VietNam (2007). [15] The Text REtrieval Conference website. http://trec.nist.gov/overview.html. 65 [16] Tru H. Cao, Truong D. Cao, Thang L. Tran: A robust Ontology-Based Method for Translating Natural Language Queries to Conceptual Graphs. In: Proceedings of
the 3rd Asian Semantic Web Conference (2008). [17] Tru H. Cao.: VN-KIM for VietNamese semantic Web. Faculty of Computer Science and Engineering, University of Technology. VietNam (2006). [18] Truong D. Cao: Dịch câu truy vấn tiếng Anh sang đồ thị khái niệm: cách tiếp cận ít phụ thuộc vào cú pháp. Master Thesis. Faculty of Computer Science and Engineering, University of Technology. VietNam (2008). [19] Zelenko, D., Aone, C. and Richardella, A.: Kernel Methods for Relation Extraction, Journal of Machine Learning Research. (2003) 1083 – 1106. [20] Zhang, L., Yu, Y.: Learning to generate CGs from domain specific. In:
Proceedings of the 9th International Conference on Conceptual Structures, LNAI 2120. Stanford, CA, USA (2001). [21] Zhou, G.D., Su, J., Zhang, J., Zhang M.: Exploring Various Knowledge in Relation Extraction. In: Proceedings of ACL (2005). 66 Thuật ngữ tiếng Việt
Bộ ba
Dàn phân cấp
Định danh tài nguyên thống nhất
Đồ thị phân đôi
Đồ thị ý niệm
Đồ thị ý niệm thực
Đồ thị ý niệm cú pháp
Đồng tham chiếu
Độ mịn
Kiểu khái niệm
Kiểu quan hệ
Khái niệm
Quan hệ
Tham chiếu
Thuộc tính
Văn phạm liên kết Thuật ngữ tiếng Anh
Triple
Hierarchy lattice
Uniform resource identifier
Bipartile graph
Conceptual graph
Real conceptual graph
Syntactic conceptual graph
Co-reference
Granularity
Conceptual type
Relation type
Concept
Relation
Reference
Property
Link grammar Viết tắt
URI
CG 67 1. What actor first portrayed James Bond?O
2. What actress starred in "The Lion in Winter"?
3. What American composer wrote the music for "West Side Story"? 53. What is Betsy Ross famous for?
54. What is Black Hills, South Dakota most famous for?
55. What is California's capital?
56. What is California's state tree?
57. What is “Chiricahua” the name of?
58. What is Dick Clark's birthday?
59. What is Dr. Ruth's last name?
60. What is Hawaii's state flower?
61. What is Martin Luther King Jr.'s real birthday?
62. What is one of the cities that the University of Minnesota is located in? 63. What the abbreviation for Original Equipment is
Manufacturer? 64. What is the airport code for Los Angeles International?
65. What is the average speed of the horses at the Kentucky Derby? 66. What is the average weight of a Yellow Labrador?
67. What is the birthstone for June?
68. What is the capital of Burkina Faso?
69. What is the capital of Haiti?
70. What is the capital of Mongolia?
71. What is the capital of Yugoslavia?
72. What is the depth of the Nile river?
73. What is the distance in miles from the earth to the sun?
74. What is the electrical output in Madrid, Spain?
75. What is the exchange rate between England and the U.S.? 4. What are Cushman and Wakefield known for?
5. What are John C. Calhoun and Henry Clay known as?
6. What are the names of Jacques Cousteau's two sons?O
7. What are the two houses of the Legislative branch?O
8. What body of water are the Canary Islands in?
9. What card company sells Christmas ornaments?
10. What caused the Lynmouth floods?
11. What city did the Flintstones live in?
12. What city in Florida is Sea World in?
13. What city is 94.5 KDGE Radio located in?
14. What city is Massachusetts General Hospital located in?
15. What city's newspaper is called "The Enquirer"?
16. What continent is Bolivia on?
17. What continent is Egypt on?
18. What country are Godiva chocolates from?
19. What country did Ponce de Leon come from?
20. What county is Modesto, California in?
21. What county is Phoenix, AZ in?
22. What Cruise Line does Kathie Lee Gifford advertise for?
23. What currency is used in Algeria?
24. What day and month did John Lennon die?
25. What day is known as the "national day of prayer"?
26. What did Delilah do to Samson's hair?O
27. What did Edward Binney and Howard Smith invent in 1903?O 76. What is the highest dam in the U.S.?
77. What is the Islamic counterpart to the Red Cross?O
78. What is the length of the coastline of the state of Alaska?
79. What is the location of the Sea of Tranquility?
80. What is the longest suspension bridge in the U.S.?
81. What is the longest word in the English language?
82. What is the major fault line near Kentucky?
83. What is the mascot for Notre Dame University?
84. What is the most common kind of skin cancer in the U.S.? 85. What is the most frequently spoken language in the Netherlands? 86. What is the name of a Greek god?
87. What is the name of a Salt Lake City newspaper?
88. What is the name of Joan Jett's band?
89. What is the name of Neil Armstrong's wife?
90. What is the name of Roy Roger's dog?
91. What is the name of the chocolate company in San 28. What did Vasco da Gama discover?
29. What does "Sitting Shiva" mean?
30. What does caliente mean (in English)?O
31. What does CNN stand for?
32. What does CPR stand for?
33. What does EKG stand for?
34. What does Final Four refer to in the sports world?
35. What does Knight Ridder publish?
36. What does NAFTA stand for?.
37. What does NASA stand for?
38. What does Nicholas Cage do for a living?
39. What does SIDS stand for?
40. What famous model was married to Billy Joel?
41. What flower did Vincent Van Gogh paint?
42. What format was VHS's main competition?
43. What French province is cognac produced in?
44. What French ruler was defeated at the battle of Francisco? Waterloo? 92. What is the name of the Jewish alphabet?
93. What is the name of the leader of Ireland?
94. What is the name of the Lion King's son in the movie, 45. What hemisphere is the Philippines in?
46. What hockey team did Wayne Gretzky play for?
47. What imaginary line is halfway between the North and "The Lion King"? South Poles? 48. What instrument is Ray Charles best known for 95. What is the name of the longest ruling dynasty of Japan?
96. What is the name of the Michelangelo painting that playing?O shows two hands with fingers touching?M 97. What is the name of the satellite that the Soviet Union sent into space in 1957? 49. What is Alice Cooper's real name?
50. What is another astronomic term for the Northern Lights?
51. What is another name for vitamin B1?
52. What is Australia's national flower? 98. What is the nickname of Pennsylvania?
99. What is the normal resting heart rate of a healthy adult? 68 156. What U.S. Government agency registers trademarks?O
157. What U.S. state's motto is "Live free or Die"?
158. What university was Woodrow Wilson President of?
159. What was the ball game of ancient Mayans called?
160. What was the death toll at the eruption of Mount Pinatubo? 161. What was the last year that the Chicago Cubs won the World Series?O 162. What was the man's name who was killed in a duel with Aaron Burr?M 163. What was the name of Jacques Cousteau's ship?
164. What was the name of the famous battle in 1836 between Texas and Mexico? 165. What was the name of the first Russian astronaut to do a spacewalk?O 166. What was the name of the movie that starred Sharon Stone and Arnold Schwarzenegger? 167. What was the name of the sitcom that Alyssa Milano starred in with Tony Danza? 168. What was the name of the television show, staring Karl 100. What is the Ohio state bird?
101. What is the oldest city in the United States?
102. What is the oldest university in the US?
103. What is the Pennsylvania state income tax rate?
104. What is the population of China?
105. What is the population of Japan?
106. What is the population of Kansas?
107. What is the population of Mexico?
108. What is the population of Mozambique?
109. What is the population of Nigeria?
110. What is the population of Ohio?
111. What is the population of Seattle?
112. What is the population of the Bahamas?
113. What is the population of the United States?
114. What is the primary language of the Philippines?
115. What is the real name of the singer, Madonna?
116. What is the salary of a U.S. Representative?
117. What is the sales tax in Minnesota?
118. What is the size of Argentina?
119. What is the state nickname of Mississippi?
120. What is the telephone number for the University of Kentucky? Malden, that had San Francisco in the title?M
169. What was the name of the Titanic's captain?
170. What was the purpose of the Manhattan project?
171. What was W.C. Fields' real name?
172. What were Christopher Columbus' three ships?
173. What were the names of the three ships used by Columbus? 121. What is the zip code for Fremont, CA?
122. What is the zip code for Parsippany, NJ?
123. What kind of a sports team is the Wisconsin Badgers?
124. What kind of animal was Winnie the Pooh?
125. What kind of sports team is the Buffalo Sabres?
126. What king was forced to agree to the Magna Carta?
127. What language is mostly spoken in Brazil?
128. What movie did Madilyn Kahn star in with Gene Wilder?
129. What nationality was Jackson Pollock?
130. What New York City structure is also known as the Twin 174. What wrestling star became "The Incredible Hulk"?
175. What year did Canada join the United Nations?O
176. What year did Hitler die?
177. What year did Montana become a state?O
178. What year did the Milwaukee Braves become the Atlanta Towers? Braves?O 131. What ocean did the Titanic sink in?
132. What party was Winston Churchill a member of?
133. What peninsula is Spain part of?
134. What position did Willie Davis play in baseball?
135. What President became Chief Justice after his presidency?O 179. What year did the Titanic sink?
180. What year did the U.S. buy Alaska?O
181. What year did the United States abolish the draft?O
182. What year did the Vietnam War end?
183. What year did WWII begin?
184. What year was Desmond Mpilo Tutu awarded the Nobel Peace Prize? 136. What province is Edmonton located in?
137. What province is Montreal in?
138. What radio station did Paul Harvey work for?
139. What river flows between Fargo, North Dakota and Moorhead, Minnesota? 185. What year was Janet Jackson's first album released?Q
186. What year was the Avery Dennison company founded?
187. What year was the Mona Lisa painted?
188. What's the formal name for Lou Gehrig's disease?
189. What's the most famous tourist attraction in Rome?
190. What's the name of a golf course in Myrtle Beach?
191. What's the name of a hotel in Indianapolis?
192. What's the name of Pittsburgh's baseball team?
193. What's the name of the actress who starred in the movie, "Silence of the Lambs"? 194. What's the name of the song Will Smith sings about parents?O 195. What's the name of the star of the cooking show, "Galloping Gourmet"? 196. What's the name of the Tampa newspaper?
197. What's the name of the tiger that advertises for Frosted Flakes cereal? 140. What river in the US is known as the Big Muddy?
141. What sport do the Cleaveland Cavaliers play?
142. What state did the Battle of Bighorn take place in?
143. What state does Martha Stewart live in?
144. What state does MO stand for?
145. What state in the United States covers the largest area?
146. What state is Niagra Falls located in?
147. What state is the Filenes store located in?
148. What store does Martha Stewart advertise for?
149. What strait separates North America from Asia?
150. What task does the Bouvier breed of dog perform?
151. What tourist attractions are there in Reims?
152. What type of bridge is the Golden Gate Bridge?
153. What type of currency is used in Australia?
154. What type of horses appear on the Budweiser commercials? 155. What type of hunting are retrievers used for? 198. What's the name of the Tokyo Stock Exchange?
199. What's the population of Biloxi, Mississippi?
200. What's the population of Mississippi?
201. What's the tallest building in New York City? 69 202. Which comedian's signature line is "Can we talk"?
203. Which mountain range in North America stretches from Maine to Georgia? 262. Where was John Adams born?
263. Where was Poe born?
264. Where was Pythagoras born?
265. Where was Tesla born?
266. Where's Montenegro?
267. Who assassinated President McKinley?
268. Who coined
the term "cyberspace" in his novel "Neuromancer"? 269. Who created "The Muppets"?
270. Who created the character James Bond?
271. Who created the character of Scrooge?
272. Who created the comic strip, "Garfield"?
273. Who developed the Macintosh computer?
274. Who discovered America?
275. Who found Hawaii?
276. Who invented the game Scrabble?
277. Who is a German philosopher?
278. Who is buried in the great pyramid of Giza?
279. Who is Secretary-General of the United Nations?
280. Who is the emperor of Japan?
281. Who is the founder of the Wal-Mart stores?
282. Who is the leader of India?
283. Who is the monarch of the United Kingdom?
284. Who is the president of Bolivia?
285. Who is the Prime Minister of Canada?
286. Who is the prophet of the religion of Islam?
287. Who killed Caesar?
288. Who killed Martin Luther King?
289. Who manufacturers Magic Chef applicances?
290. Who manufactures the software, "PhotoShop"?
291. Who owns CNN?
292. Who owns the St. Louis Rams?
293. Who painted Olympia?
294. Who played the teacher in Dead Poet's Society?
295. Who portrayed Jake in the television show, "Jake and the Fatman"? 296. Who provides telephone service in Orange County, California? 297. Who shot Billy the Kid?
298. Who started the Dominos Pizza chain?
299. Who was Charles Lindbergh's wife?
300. Who was Darth Vader's son?
301. Who was elected president of South Africa in 1994?
302. Who was Samuel Johnsons's friend and biographer?
303. Who was the 21st U.S. President?O
304. Who was the 23rd president of the United States?O
305. Who was the 33rd president of the United States?O
306. Who was the abolitionist who led the raid on Harper's Ferry in 1859? 307. Who was the architect of Central Park?
308. Who was the author of the book about computer hackers
called "The Cuckoo's Egg: Tracking a Spy Through the
Maze of Computer Espionage"? 204. Which U.S. President is buried in Washington, D.C.?
205. Where are the headquarters of Eli Lilly?
206. Where are the National Archives?
207. Where are the Rocky Mountains?
208. Where are the U.S. headquarters for Procter and Gamble?
209. Where did Bill Gates go to college?
210. Where did Hillary Clinton graduate college?
211. Where did Howard Hughes die?
212. Where did the Inuits live?
213. Where did the Maya people live?
214. Where did Wicca first develop?O
215. Where did Woodstock take place?
216. Where does Mother Angelica live?
217. Where is Amsterdam?
218. Where is Ayer's rock?
219. Where is Basque country located?
220. Where is Belize located?
221. Where is Burma?
222. Where is Glasgow?
223. Where is Guam?
224. Where is John Wayne airport?
225. Where is Kings Canyon?
226. Where is Las Vegas?
227. Where is Logan International located?
228. Where is McCarren Airport?
229. Where is Melbourne?
230. Where is Milan?
231. Where is Ocho Rios?
232. Where is Perth?
233. Where is Prince Edward Island?
234. Where is Rider College located?
235. Where is Romania located?
236. Where is Santa Lucia?
237. Where is the bridge over the river Kwai?
238. Where is the Danube?
239. Where is the Euphrates River?
240. Where is the Grand Canyon?
241. Where is the Holland Tunnel?
242. Where is the Isle of Man?
243. Where is the Kalahari desert?
244. Where is the location of the Orange Bowl?
245. Where is the Louvre?
246. Where is the Mall of the America?
247. Where is the Mayo Clinic?
248. Where is the Orinoco River?
249. Where is the Orinoco?
250. Where is the Shawnee National Forest?
251. Where is the Smithsonian Institute located?
252. Where is the Thomas Edison Museum?
253. Where is the Valley of the Kings?
254. Where is the volcano Mauna Loa?
255. Where is the volcano Olympus Mons located?
256. Where is Tornado Alley?
257. Where is Trinidad?
258. Where is Tufts University?
259. Where is Venezuela?
260. Where is Webster University?
261. Where is Windsor Castle? 309. Who was the first American to walk in space?O
310. Who was the first coach of the Cleveland Browns?O
311. Who was the first female United States Representative?O
312. Who was the first governor of Alaska?O
313. Who was the first king of England?O
314. Who was the first man to fly across the Pacific Ocean?O
315. Who was the first U.S. president ever to resign?O
316. Who was the founding member of the Pink Floyd band? 70 the book, "The Grinch Who Stole 317. Who was the oldest U.S. president?
318. Who was the president of Vichy France?
319. Who was the tallest U.S. president?
320. Who won Ms. American in 1989?
321. Who won the nobel prize in literature in 1988?
322. Who won the rugby world cup in 1987?
323. Who won the Superbowl in 1982?
324. Who wrote "An Ideal Husband"?
325. Who wrote "The Pit and the Pendulum"?
326. Who wrote "The Scarlet Letter"?
327. Who wrote the book, "Huckleberry Finn"?
328. Who wrote the book, "Song of Solomon"?
329. Who wrote
Christmas"? 374. When was the movie, Caligula, made?
375. When was the NFL established?
376. When was the San Francisco fire?
377. When was the Triangle Shirtwaist fire?
378. When were William Shakespeare's twins born?
379. How big is Australia?
380. How big is the Electoral College?
381. How did Bob Marley die?
382. How far away is the moon?
383. How far is it from Denver to Aspen?
384. How far is Pluto from the sun?
385. How fast can a Corvette go?
386. How hot is the core of the earth?
387. How large is Missouri's population?
388. How long did Rip Van Winkle sleep?
389. How long would it take for a $50 savings bond to mature? 390. How long would it take to get from Earth to Mars?
391. How many casinos are in Atlantic City, NJ?
392. How many counties are in Indiana?
393. How many films did Ingmar Bergman make?
394. How many Great Lakes are there?
395. How many highway miles to the gallon can you get with the Ford Fiesta?Q 396. How many home runs did Babe Ruth hit in his lifetime?M 330. Who wrote the hymn "Amazing Grace"?
331. Who wrote the song, "Boys of Summer"?
332. Who wrote the song, "Silent Night"?
333. Who's the lead singer of the Led Zeppelin band?
334. When did Aldous Huxley write, "Brave New World"?
335. When did Amtrak begin operations?O
336. When did Elvis Presley die?
337. When did Geraldine Ferraro run for vice president?O
338. When did Hawaii become a state?O
339. When did Idaho become a state?O
340. When did John F. Kennedy get elected as President?
341. When did Muhammad live?
342. When did Princess Diana and Prince Charles get 397. How many home runs did Lou Gehrig have during his married?O career?O 398. How many islands does Fiji have?
399. How many miles is it from London, England to Plymouth, England? 400. How many people die from snakebite poisoning in the U.S. per year? 343. When did the American Civil War end?
344. When did the California lottery begin?
345. When did the Carolingian period begin?
346. When did the Chernobyl nuclear accident occur?
347. When did the Dow first reach 2000?O
348. When did the Hindenberg crash?
349. When did the royal wedding of Prince Andrew and Fergie take place? 401. How many people live in Chile?
402. How many people lived in Nebraska in the mid 1980s?
403. How many Stradivarius violins were ever made?
404. How many Superbowls have the 49ers won?
405. How many years ago did the ship Titanic sink?O
406. How many zip codes are there in the U.S.?
407. How much in miles is a ten K run?O
408. How much money does the Sultan of Brunei have?
409. How much was a ticket for the Titanic?
410. How old was Elvis Presley when he died?O
411. How tall is Kilimanjaro?
412. How tall is the Gateway Arch in St. Louis, MO?
413. How tall is the Sears Building?
414. How was Teddy Roosevelt related to FDR?Q
415. How wide is the Atlantic Ocean?
416. How wide is the Milky Way galaxy?
417. In Poland, where do most people live?
418. In the late 1700's British convicts were used to populate which colony?O 350. When did World War I start?
351. When is Bastille Day?
352. When is Boxing Day?
353. When is hurricane season in the Caribbean?
354. When is the Tulip Festival in Michigan?
355. When was "the Great Depression"?
356. When was Algeria colonized?
357. When was Babe Ruth born?
358. When was Beethoven born?
359. When was CNN's first broadcast?O
360. When was Hurricane Hugo?
361. When was John D. Rockefeller born?
362. When was Lyndon B. Johnson born?
363. When was Microsoft established?
364. When was Nostradamus born?
365. When was Rosa Parks born?
366. When was the Brandenburg Gate in Berlin built?
367. When was the De Beers company founded?
368. When was the first Barbie produced?O
369. When was the first railroad from the east coast to the west coast completed?O 419. In what area of the world was the Six Day War fought?
420. In what book can I find the story of Aladdin?
421. Italy is the largest producer of what?
422. Mercury, what year was it discovered?
423. Name a ballet company Mikhail Baryshnikov has danced for? 424. Name a film in which Jude Law acted.
425. Name a Gaelic language 370. When was the first Wall Street Journal published?O
371. When was the first Wal-Mart store opened?O
372. When was the Hoover Dam constructed?
373. When was the last major eruption of Mount St. Helens?O 71 426. Name a movie that the actress, Sandra Bullock, had a 436. At Christmas time, what is the traditional thing to do role in. under the mistletoe?Q 437. At what speed does the Earth revolve around the sun?
438. Can you give me the name of a clock maker in London, England? 439. For what disease is the drug Sinemet used as a treatment?
440. George Bush purchased a small interest in which baseball team? 427. Name a novel written by John Steinbeck.
428. Name a tiger that is extinct?
429. Name an American made motorcycle?
430. Name an American war plane?
431. Name an art gallery in New York.
432. Name one of the Seven Wonders of the Ancient World
433. Tell me what city the Kentucky Horse Park is near?
434. The U.S. Department of Treasury first issued paper currency for the U.S. during which war?O
435. About how many soldiers died in World War II? Ghi chú: O: O-Error; Q:Q-Error; M:M-Error 72 73 74Hình 4.0.4: Xác định loại quan hệ giữa tính từ adj và thực thể.
. Việc ánh xạ này cũng được thực hiện bằng giải pháp
đã được trình bày tại Bước 4.1.9. Quá trình ánh xạ được
Hình 4.0.5: Lược đồ ánh xạ kiểu quan hệ giữa tính từ và thực thể.
4.1.12
Xây dựng đồ thị ý niệm
4.2 Tập luật
4.2.1 Cấu trúc của hệ thống luật
Hình 4.0.6: Cấu trúc tập thành phần TransformRules và rule.
4.2.2 Cấu trúc thành phần điều kiện của luật
Bảng 4.1: Bảng thuộc tính thành phần premise.
4.2.3 Cấu trúc thành phần hành động của luật
Hình 4.0.7: Cấu trúc của thành phần điều kiện luật.
Hình 4.0.8: Ví dụ về thành phần premise.
4.2.4 Xây dựng một số luật đặc biệt
4.2.5 Xây dựng từ điển luật
Hình 4.0.9: Cấu trúc của thành phần hành động.
Hình 4.0.10: Cấu trúc từ điển quan hệ.
Hình 4.0.11: Ví dụ một luật hoàn chỉnh.
Bảng 4.2: Mô tả các thuộc tính của thành phần entry.
Hình 4.0.12: Ví dụ một số thành phần trong từ điển.
4.3 Kết quả thí nghiệm
Bảng 4.3: Kết quả thực nghiệm trên TREC 2002 khi chưa áp dụng phương pháp đề nghị.
Bảng 4.4: Kết quả thực nghiệm trên TREC 2002 sau khi áp dụng phương pháp đề nghị.
Bảng 4.5: Kết quả thực nghiệm trên TREC 2002 sau khi làm giàu Ontology.
Hình 4.0.13: Ví dụ về biểu diễn câu truy vấn “Queried relation”.
Hình 4.0.14: Ví dụ về biểu diễn câu truy vấn “Advert / Temporal”.
Bảng 4.6: Bảng tổng kết kết quả cuối cùng đạt được trên tập TREC 2002.
Bảng 4.7: Kết quả thực nghiệm trên TREC 2007 khi chưa áp dụng phương pháp đề nghị.
Bảng 4.8: Kết quả thực nghiệm trên TREC 2007 sau khi áp dụng phương pháp đề nghị.
Bảng 4.9: Kết quả thực nghiệm trên TREC 2007 sau khi làm giàu Ontology.
Bảng 4.10: Bảng tổng kết kết quả cuối cùng đạt được trên tập TREC 2007.
CHƯƠNG 5
HIỆN THỰC HỆ THỐNG
5.1 Các khối xử lý và giao diện các lớp quan trọng
5.1.1 Ứng dụng web phía Client
5.1.2 Hệ thống xử lý trên server
5.2 Hệ thống luật [tham khảo CDT]
5.2.1 Cấu trúc của hệ thống luật
5.2.2 Cấu trúc thành phần điều kiện của luật
5.2.3 Cấu trúc thành phần hành động của luật
5.2.4 Xây dựng một số luật đặc biệt
5.3 Lưu trữ đồ thị và hiển thị đồ thị [tham khảo HA]
5.4 Xây dựng câu truy vấn SeRQL
CHƯƠNG 6
KẾT LUẬN
TÀI LIỆU THAM KHẢO
PHỤ LỤC 1: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT
PHỤ LỤC A: TẬP CÂU MẪU TREC 2002
PHỤ LỤC C: ĐỒ THỊ Ý NIỆM SINH ĐÚNG TỪ TREC 2002 TRƯỚC
KHI LÀM GIÀU ONTOLOGY
PHỤ LỤC D: ĐỒ THỊ Ý NIỆM SINH ĐÚNG TỪ TREC 2002 SAU
KHI LÀM GIÀU ONTOLOGY
Có thể bạn quan tâm
Tài liêu mới