
i
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Chu Thị Thủy
TRÍCH CHỌN TỰ ĐỘNG QUAN HỆ PHƯƠNG THỨC TỪ
VĂN BẢN TIẾNG VIỆT DỰA TRÊN THUẬT TOÁN SVM
VÀ THỬ NGHIỆM ĐÁNH GIÁ
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ Thông tin
Hà Nội - 2011

ii
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Chu Thị Thủy
TRÍCH CHỌN TỰ ĐỘNG QUAN HỆ PHƯƠNG THỨC TỪ
VĂN BẢN TIẾNG VIỆT DỰA TRÊN THUẬT TOÁN SVM
VÀ THỬ NGHIỆM ĐÁNH GIÁ
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ Thông tin
Cán bộ hướng dẫn: PGS.TS Hà Quang Thuỵ
Cán bộ đồng hướng dẫn: ThS. Nguyễn Thu Trang
Hà Nội - 2011

i
Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo
sư Tiến sĩ Hà Quang Thụy và Thạc sỹ Nguyễn Thu Trang, người đã tận tình chỉ bảo
và hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp.
Tôi chân thành cảm ơn các thầy, cô đã tạo những điều kiện thuận lợi cho tôi học
tập, nghiên cứu tại trường Đại Học Công Nghệ và sự hỗ trợ từ đề tài QG.10.38.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm
“Khai phá dữ liệu” SIS-KTLab đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên
môn để hoàn thành tốt khoá luận.
Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người
thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt
nghiệp.
Tôi xin chân thành cảm ơn!
Sinh viên
Chu Thị Thủy

ii
Tóm tắt
Trích chọn các mối quan hệ ngữ nghĩa từ văn bản ngày càng trở nên quan trọng
đối với các ứng dụng như hệ thống hỏi đáp, trích chọn thông tin, tóm tắt văn bản và
hiểu văn bản. Khóa luận này đề xuất một phương pháp để tự động trích chọn quan hệ
phương thức từ văn bản dựa trên học máy SVM. Đưa ra một tập các ký hiệu liên quan
tới quan hệ phương thức, bao gồm DOMAIN và RANGE. Phân tích sự gắn kết của
quan hệ phương thức với những quan hệ khác. Đồng thời, chúng tôi cũng trình bày các
mẫu từ vựng – cú pháp cơ bản biểu diễn quan hệ phương thức. Một tập các đặc trưng
riêng được trích chọn làm tăng độ chính xác và tính khả thi của mô hình.
Thực nghiệm bước đầu trên tập dữ liệu tiếng Việt gồm khoảng 300 câu
chứa/không chứa quan hệ phương thức cho thấy phương pháp đề xuất đạt được một
kết quả nhất định: độ đo F trong khoảng 60 - 70%. Dựa vào đó, chúng tôi nhận thấy
phương pháp trích chọn quan hệ phương thức đã đề xuất và triển khai là khả quan.

iii
Lời cam đoan
Tôi cam đoan trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt
dựa trên thuật toán SVM và thử nghiệm đánh giá được trình bày trong khóa luận này
do tôi thực hiện dưới sự hướng dẫn của PGS. TS. Hà Quang Thụy và ThS. Nguyễn
Thu Trang.
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc
một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận,
không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ
về tài liệu tham khảo.

