
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Minh Tuấn
PHÂN LỚP CÂU HỎI HƯỚNG TỚI TÌM KIẾM NGỮ
NGHĨA TIẾNG VIỆT TRONG LĨNH VỰC Y TẾ
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2008

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Minh Tuấn
PHÂN LỚP CÂU HỎI HƯỚNG TỚI TÌM KIẾM NGỮ
NGHĨA TIẾNG VIỆT TRONG LĨNH VỰC Y TẾ
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: PGS. TS. Hà Quang Thụy
Cán bộ đồng hướng dẫn: Th.S Nguyễn Việt Cường
HÀ NỘI - 2008

Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến
sĩ Hà Quang Thụy và Thạc sỹ Nguyễn Việt Cường, người đã tận tình chỉ bảo và hướng
dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp.
Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để học tập và
nghiên cứu tại trường Đại Học Công Nghệ.
Tôi xin gửi lời cảm ơn chân thành tới Thạc Sỹ Nguyễn Cẩm Tú và Cử Nhân Nguyễn Thu
Trang những đã tận tình hỗ trợ về kiến thức chuyên môn, giúp đỡ tôi hoàn thành khóa
luận.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm “Khai phá dữ
liệu” đã giúp tôi rất nhiều trong việc thu thập và xử lý dữ liệu.
Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân yêu
luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp.
Tôi xin chân thành cảm ơn !
Sinh viên
Nguyễn Minh Tuấn

i
Tóm tắt
Cùng với sự ra đời của Web ngữ nghĩa và các Ontology, nhu cầu tìm kiếm ngữ
nghĩa ngày càng nhận được nhiều sự quan tâm trong cộng đồng nghiên cứu về khai phá
dữ liệu Web/Text. Mặt khác, phân lớp câu hỏi là một trong những thành phần cơ bản
nhưng quan trọng nhất trong kiến trúc tổng thể của hầu hết các máy tìm kiếm ngữ nghĩa.
Đây cũng là thành phần chịu nhiều sự ảnh hưởng của các đặc trưng ngôn ngữ và giữ vai
trò nền tảng cho các bước xử lý nhằm hướng tới tìm kiếm ngữ nghĩa.
Khóa luận này tập trung nghiên cứu phương pháp phân loại câu hỏi trong lĩnh vực y
tế tiếng Việt dựa trên hướng tiếp cận cực đại hóa Entropy (maxent). Dựa trên việc khảo
sát các đặc trưng tiếng Việt và các hướng tiếp cận trong phân lớp câu hỏi trên tiếng Anh,
khóa luận đã tích hợp các đặc trưng này vào quá trình phân lớp với Maxent và thu được
kết quả khả quan. Những nội dung này có thể coi là những nghiên cứu đầu tiên trong vấn
đề này trên tiếng Việt.

ii
Mục lục
Tóm tắt...................................................................................................................................i
Mục lục.................................................................................................................................ii
Danh sách các bảng .............................................................................................................iv
Danh sách các hình...............................................................................................................v
Lời mở đầu............................................................................................................................1
Chương I. Tổng quan về tìm kiếm ngữ nghĩa ......................................................................2
1.1. Nhu cầu về máy tìm kiếm ngữ nghĩa.....................................................................2
1.2. Cấu trúc tổng thể của một máy tìm kiếm ngữ nghĩa .............................................2
1.2.1. Nền tảng cho tìm kiếm ngữ nghĩa ..................................................................2
1.2.2.1. Web ngữ nghĩa........................................................................................3
1.2.2.2. Ontology .................................................................................................4
1.2.2. Kiến trúc cơ bản của một máy tìm kiếm ngữ nghĩa.......................................9
1.2.2.3. Giao diện người dùng ...........................................................................10
1.2.2.4. Kiến trúc bên trong ...............................................................................10
Chương 2. Tìm kiếm ngữ nghĩa trong tiếng Việt...............................................................14
2.1. Tổng quan về cơ sở cho tìm kiếm ngữ nghĩa tiếng Việt......................................14
2.2. Một số đặc trưng của tiếng Việt ..........................................................................15
2.2.1 Đặc điểm ngữ âm .........................................................................................15
2.2.2 Đặc điểm từ vựng:........................................................................................15
2.2.3 Đặc điểm ngữ pháp.......................................................................................16
2.3. Tìm kiếm ngữ nghĩa trong lĩnh vực y tế..............................................................16
2.3.1. Ontology Y tế trong tiếng Việt.....................................................................16
2.3.2. Bộ phân lớp câu hỏi Y tế trong tiếng Việt ...................................................18
Chương 3. Các phương pháp phân lớp câu hỏi ..................................................................19
3.1. Giới thiệu về phân lớp câu hỏi.............................................................................19
3.2. Các phương pháp phân lớp câu hỏi .....................................................................19
3.3. Hướng tiếp cận dựa trên xác suất ........................................................................20
3.3.2 Các hướng tiếp cận theo phương pháp học máy ..........................................21

