
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Đức Trọng
GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU
TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO
PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI – 2011

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Đức Trọng
GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU
TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO
PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: TS. Nguyễn Trí Thành
Cán bộ đồng hướng dẫn: ThS. Trần Mai Vũ
HÀ NỘI - 2011

Lời cảm ơn
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư
Tiến sĩ Hà Quang Thụy, Tiến sĩ Nguyễn Trí Thành, Thạc sỹ Trần Mai Vũ đã tận tình
hướng dẫn, giúp đỡ tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp này.
Tôi xin chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi
để tôi học tập, rèn luyện và nghiên cứu tại trường Đại học Công nghệ.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên tại phòng thí
nghiệm KT-Sislab, các bạn trong nhóm nghiên cứu khoa học đã giúp đỡ, hỗ trợ tôi
trong quá trình thu thập dữ liệu và thực nghiệm mô hình. Đồng thời tôi xin gửi lời cảm
ơn đề tài QG 10.38 đã hỗ trợ tôi trong quá trình hoàn thành khóa luận này.
Tôi gửi lời cảm ơn tới các bạn trong lớp K52CA và K52CHTTT đã ủng hộ,
khích lệ, giúp đỡ và luôn sát cánh bên tôi trong suốt quá trình học tập, rèn luyện tại
trường
Và cuối cùng, tôi xin gửi lời cảm ơn vô hạn tới gia đình, người thân và bạn bè –
những người luôn ở bên tôi những lúc khó khăn nhất, luôn động viên tôi, khuyến khích
tôi trong cuộc sống cũng như học tập, công việc.
Tôi xin chân thành cảm ơn !
Sinh viên
Lê Đức Trọng

Lời cam đoan
Tôi xin cam đoan mô hình đề xuất giải quyết bài toán đồng tham chiếu trong
văn bản tiếng Việt và thực nghiệm được trình bày trong khóa luận này do tôi thực hiện
dưới sự hướng dẫn của Tiến sĩ Nguyễn Trí Thành và Thạc sỹ Trần Mai Vũ.
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc
một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Khóa luận không
sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về mặt tài liệu
tham khảo.
Các kết quả thực nghiệm của khóa luận đều được tiến hành thực nghiệm và
thống kê từ kết quả thực thế.
Sinh viên
Lê Đức Trọng

Tóm tắt
Bài toán đồng tham chiếu trong văn bản là bài toán xác định các cụm từ (ngữ
danh từ hoặc đại từ) trong một tài liệu cùng chỉ tới một thực thể xác định trong thế giới
thực và gom nhóm các cụm từ này thành các chuỗi đồng tham chiếu [6] . Đây là một
vấn đề khó của lĩnh vực xử lý ngôn ngữ tự nhiên [16], nhận được sự quan tâm rất lớn
từ các nhà nhiên cứu cũng như các hội nghị lớn trên thế giới. Tại Việt Nam, bài toán
này vẫn đặt ra nhiều thách thức do tính phức tạp của ngôn ngữ tiếng Việt và sự không
đầy đủ các nguồn tài nguyên ngôn ngữ học chuNn. Tuy nhiên, nó là một bài toán có
tiềm năng khai thác cho nguồn dữ liệu tiếng Việt, cần được tìm hiểu và nghiên cứu.
Dựa trên cơ sở những đặc trưng của miền dữ liệu tiếng Việt, dựa trên tính mới,
tính chính xác của các phương pháp tiếp cận giải quyết, khóa luận chọn hướng tiếp cận
sử dụng phương pháp máy vector hỗ trợ SVM để giải quyết bài toán đồng tham chiếu
trong văn bản tiếng Việt. Ý tưởng của hướng tiếp cận là ghép cặp các cụm từ tiềm
năng, mỗi cụm từ thể hiện cho một quan hệ, mỗi quan hệ được biểu diễn bởi một
vector đặc trưng. Sau đó được đưa vào bộ phân lớp SVM để xác định tính chất đồng
tham chiếu, từ đó gom nhóm các cụm từ đồng tham chiếu với nhau. Khóa luận sử
dụng nguồn dữ liệu là nội dung các bài báo được tải tự động và bóc tách nội dung
chính từ chuyên mục Văn hóa – xã hội của báo điện tử Vnexpress.net để xây dựng dữ
liệu học cho mô hình đề xuất.
Kết quả phần thực nghiệm bước đầu trên mô hình đề xuất đạt độ chính xác
76,51 %. Trong khi đó độ chính xác trên mô hình cơ sở là 73.79 % với các đặc trưng
tương đương. Điều này khẳng định mô hình là khả thi và có khả năng ứng dụng thực
tế.

