
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Mạnh Cường
XÂU CHUỖI VĂN BẢN THEO SỰ KIỆN
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: công nghệ thông tin
HÀ NỘI – 2013

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Mạnh Cường
XÂU CHUỖI VĂN BẢN THEO SỰ KIỆN
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: công nghệ thông tin
Cán bộ hướng dẫn: TS. Phan Xuân Hiếu
Cán bộ đồng hướng dẫn: ThS. Trần Mai Vũ

VIETNAM NATIONNAL UNIVERSITY, HANOI
UNIVERSITY OF ENGINEERING AND TECHNOLOGY
Cuong Le Manh
EVENT – ORIENTED DOCUMENT GROUPING
Major: Information Technology
Supervisor: Dr. Hieu Phan Xuan
Co-Supervisor: M.s. Vu Tran Mai
HA NOI – 2013

Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn sâu sắc nhất đến PGS.TS. Hà Quang Thụy, TS.
Phan Xuân Hiếu, ThS. Trần Mai Vũ và cử nhân Nguyễn Minh Tiến, những người đã
tận tình hướng dẫn tôi trong quá trình thực hiện khóa luận tốt nghiệp.
Tôi cảm ơn các thầy, cô trường Đại học Công nghệ đã tạo điều kiện thuận lợi cho
tôi học tập và nghiên cứu tại đây.
Tôi xin cảm ơn các anh chị và các bạn trong phòng thí nghiệm Công nghệ Tri
thức KT-Lab đã hỗ trợ tôi về mặt kiến thức chuyên môn cũng như thực nghiệm để tôi
hoàn thành khóa luận tốt hơn.
Tôi cũng xin cảm ơn các bạn trong lớp K54CD và K54C–CLC đã ủng hộ, giúp
đỡ tôi trong thời gian tôi học tập ở trường.
Cuối cùng, tôi muốn gửi lời cảm ơn đến gia đình và bạn bè, những người đã
khích lệ, động viên tôi giúp tôi vượt qua những khó khăn.
Tôi xin chân thành cảm ơn.
Hà Nội, ngày 15 tháng 5 năm 2013
Lê Mạnh Cường

XÂU CHUỖI VĂN BẢN THEO SỰ KIỆN
Lê Mạnh Cường
Khóa QH-2009-I/CQ, ngành Công nghệ thông tin
Tóm tắt khóa luận tốt nghiệp
Dữ liệu đang bùng nổ một cách chóng mặt, nhu cầu trích chọn thông tin của con người
ngày một tăng. Bài toán xâu chuỗi văn bản là một trong những vấn đề lớn đang được quan
tâm hiện nay. Với mục tiêu giúp con người nắm được bức tranh toàn cảnh về các nguồn văn
bản trên mạng hay cụ thể ở đây là các văn bản dạng tin tức dựa trên chuỗi các sự kiện xảy ra
là sự ra đời của bài toán xâu chuỗi văn bản theo sự kiện. Trong phạm vi khóa luận tìm hiểu
về một số tiếp cận phát hiện sự kiện trong văn bản cũng như mốt số tiếp cận dùng để xâu
chuỗi các sự kiện trong văn bản. Với mục tiêu phát hiện sự kiện trong văn bản tìm hiểu về
hướng tiếp cận sử dụng độ đo TF – IDF, còn với mục tiêu là phát hiện chuỗi sự kiện dùng để
xâu chuỗi văn bản, tìm hiểu hai tiếp cận. Tiếp cận đầu tiên cũng sử dụng độ đo TF – IDF còn
tiếp cận thứ hai sử dụng độ tương đồng của các thông tin thời gian – địa điểm của sự kiện.
Về phần phương pháp đề xuất cho loại văn bản tin tức sử dụng phương pháp xâu chuỗi
dựa trên tiêu đề các trang tin tức vì thực tế là hầu hết tiêu đề của tin tức đã nêu rõ nội dung
của sự kiện. Tác giả xây dựng các từ điển danh từ, động từ, thực thể và các luật để bắt sự kiện
sau đó dùng độ tương đồng cô-sin giữa các từ/cụm từ để gom nhóm các sự kiện. Cuối cùng sử
dụng yếu tố thời gian để xâu chuỗi sự kiên. Từ chuỗi sự kiện phát hiện được trên các tiêu đề
ta tiến hành xâu chuỗi các văn bản tương ứng với các tiêu đề đó.
Từ khóa: xâu chuỗi văn bản, sự kiện, chuỗi sự kiện

