
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Hà Thị Oanh
PHÁT HIỆN KẾ THỪA VĂN BẢN TIẾNG VIỆT
DỰA TRÊN TỪ VỰNG VÀ TỪ ĐIỂN ĐỒNG NGHĨA
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY
Ngành: Công nghệ Thông tin
Hà Nội – 2012

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Hà Thị Oanh
PHÁT HIỆN KẾ THỪA VĂN BẢN TIẾNG VIỆT
DỰA TRÊN TỪ VỰNG VÀ TỪ ĐIỂN ĐỒNG NGHĨA
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY
Ngành: Công nghệ Thông tin
Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy
Cán bộ đồng hướng dẫn: ThS Phạm Quang Nhật Minh
Hà Nội – 2012

VIETNAM NATIONAL UNIVERSITY, HANOI
UNIVERSITY OF ENGINEERING AND TECHNOLOGY
Ha Thi Oanh
RECOGNIZING VIETNAMESE TEXTUAL
ENTAILMENT BASED ON LEXICAL AND
SYNONYM DICTIONARY
Major: Information Technology
Supervisor: Assoc. Prof. Ha Quang Thuy
Co-Supervisor: Masters. Pham Quang Nhat Minh
HA NOI – 2012

i
LỜI CẢM ƠN
Lời đầu tiên, em xin gửi lời cảm ơn sâu sắc nhất tới PGS.TS. Hà Quang Thụy,
ThS Phạm Quang Nhật Minh đã tận tình chỉ bảo và hướng dẫn em thực hiện khóa luận
tốt nghiệp.
Em xin cảm ơn các thầy, cô trong trường Đại học Công nghệ đã giảng dạy và cho
em những kiến thức quý báu, làm nền tảng để em hoàn thành khóa luận, cũng như
trong công việc tương lai.
Em xin gửi lời cảm ơn tới các anh chị, các bạn sinh viên trong phòng thí nghiệm
KTLab: TS. Phan Xuân Hiếu, CN Lê Đức Trọng, CN Trần Xuân Tứ, Nguyễn Thị
Thùy Linh, … đã hỗ trợ em rất nhiều trong suốt quá trình làm khóa luận.
Em cũng xin được gửi lời tri ân tới các bạn trong lớp K53CLC, K53CC đã luôn
bên cạnh và ủng hộ em trong suốt quá trình học tập tại trường.
Cuối cùng, em muốn gửi lời cảm ơn sâu sắc tới gia đình và bạn bè - những người
thân yêu luôn ở bên yêu thương che chở em để em vượt qua những khó khăn trong
cuộc sống cũng như trong học tập.
Em xin chân thành cảm ơn!
Hà Nội, tháng 5 năm 2012
Sinh viên
Hà Thị Oanh

ii
PHÁT HIỆN KẾ THỪA VĂN BẢN DỰA TRÊN
TỪ VỰNG VÀ TỪ ĐIỂN ĐỒNG NGHĨA
Hà Thị Oanh
Khóa QH-2008-I/CQ, Ngành Công nghệ thông tin
Tóm tắt Khóa luận tốt nghiệp
Phát hiện quan hệ ngữ nghĩa (semantic relation) là một bài toán quan trọng trong lĩnh
vực xử lý ngôn ngữ tự nhiên và khai phá dữ liệu văn bản. Phát hiện kế thừa văn bản
(Recognizing Textual Entailment: RTE) là bài toán tìm mối quan hệ “kế thừa ngữ nghĩa” của
một văn bản T từ một văn bản giả thuyết H, là một bài toán có ý nghĩa khoa học – công nghệ
thời sự thu hút sự quan tâm của nhiều nhóm nghiên cứu trên thế giới. Nhiều công trình nghiên
cứu về RTE được công bố trên các tạp chí, tại các hội nghị khoa học quốc tế mà điển hình là
nhánh hội nghị khoa học về RTE trong dãy hội nghị thường niên về phân tích văn bản (Text
Analysis Conference: TAC) do Viện Tiêu chuNn và Công nghệ quốc gia Mỹ chủ trì.
Khóa luận tập trung nghiên cứu bài toán và các phương pháp phát hiện kế thừa văn
bản ti tại các hội nghị khoa học quốc tế RTE. Trên cơ sở tìm hiểu và so sánh các hướng tiếp
cận, khóa luận tập trung vào hướng tiếp cận xác định kế thừa văn bản dựa trên từ vựng và tri
thức miền.
Các nghiên cứu theo hướng tiếp cận này (Valentin Jijkoun và Maarten de Rijke, 2006
[20], Ken-ichi Yokote và cộng sự, 2012 [22]) cho thấy giá trị ngưỡng phán quyết kế thừa có ý
nghĩa quan trọng. Khóa luận đề xuất giải pháp xác định và tinh chỉnh ngưỡng phán quyết kế
thừa trong tiếp cận phát hiện kế thừa văn bản dựa trên từ vựng và đề nghị một mô hình phát
hiện kế thừa văn bản có tích hợp giải pháp xác định và tinh chỉnh ngưỡng phán quyết nói trên.
Thực nghiệm mô hình đề xuất trên dữ liệu tiếng Việt chứng tỏ giải pháp đề xuất có
tính hiệu quả: độ đo F1 của phán quyết sau khi tinh chỉnh trung bình tăng 3% so với chưa tinh
chỉnh...
Từ khóa: Kế thừa ngữ nghĩa, RTE, từ điển đồng nghĩa

