ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Lê Mạnh Cường
XÂU CHUI VĂN BN THEO S KIN
KHÓA LUN TT NGHIỆP ĐẠI HC H CHÍNH QUY
Ngành: công ngh thông tin
HÀ NI 2013
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Lê Mạnh Cường
XÂU CHUI VĂN BN THEO S KIN
KHÓA LUN TT NGHIỆP ĐẠI HC H CHÍNH QUY
Ngành: công ngh thông tin
Cán b ng dn: TS. Phan Xuân Hiếu
Cán b đồng hướng dn: ThS. Trần Mai Vũ
VIETNAM NATIONNAL UNIVERSITY, HANOI
UNIVERSITY OF ENGINEERING AND TECHNOLOGY
Cuong Le Manh
EVENT ORIENTED DOCUMENT GROUPING
Major: Information Technology
Supervisor: Dr. Hieu Phan Xuan
Co-Supervisor: M.s. Vu Tran Mai
HA NOI 2013
Li cảm ơn
Trưc tiên, tôi xin gi li cm ơn sâu sắc nht đến PGS.TS. Hà Quang Thy, TS.
Phan Xuân Hiếu, ThS. Trn Mai cử nhân Nguyn Minh Tiến, những người đã
tận tình hướng dn tôi trong quá trình thc hin khóa lun tt nghip.
Tôi cm ơn các thầy, cô trường Đại hc Công ngh đã tạo điều kin thun li cho
tôi hc tp và nghiên cu tại đây.
Tôi xin cm ơn các anh chị các bn trong phòng thí nghim Công ngh Tri
thc KT-Lab đã hỗ tr tôi v mt kiến thức chuyên môn cũng như thc nghiệm để tôi
hoàn thành khóa lun tốt hơn.
Tôi cũng xin cảm ơn các bạn trong lp K54CD và K54C–CLC đã ng h, giúp
đỡ tôi trong thi gian tôi hc tp trưng.
Cui cùng, tôi mun gi li cảm ơn đến gia đình bn bè, những người đã
khích l, động viên tôi giúp tôi vượt qua nhng khó khăn.
Tôi xin chân thành cảm ơn.
Hà Nội, ngày 15 tháng 5 năm 2013
Lê Mạnh Cường
XÂU CHUỖI VĂN BN THEO S KIN
Lê Mạnh Cường
Khóa QH-2009-I/CQ, ngành Công ngh thông tin
Tóm tt khóa lun tt nghip
D liệu đang bùng nổ mt cách chóng mt, nhu cu tch chn thông tin của con người
ngày mt tăng. Bài toán xâu chuỗi văn bản mt trong nhng vn đề lớn đang được quan
tâm hin nay. Vi mục tiêu giúp con người nm được bc tranh toàn cnh v các ngun văn
bn trên mng hay c th đây các văn bản dng tin tc da trên chui các s kin xy ra
s ra đi ca i toán xâu chui văn bản theo s kin. Trong phm vi khóa lun tìm hiu
v mt s tiếp cn pt hin s kiện trong văn bản cũng như mt s tiếp cận ng để xâu
chui các s kin trong văn bản. Vi mc tiêu phát hin s kiện trong văn bản tìm hiu v
ng tiếp cn s dng đ đo TF – IDF, còn vi mc tiêu phát hin chui s kin dùng để
u chuỗi văn bản, tìm hiu hai tiếp cn. Tiếp cn đầu tiên cũng sử dng độ đo TF – IDF còn
tiếp cn th hai s dụng độ tương đồng ca các thông tin thi gian địa đim ca s kin.
V phần phương pháp đề xut cho loi văn bản tin tc s dng phương pháp xâu chuỗi
dựa trên tiêu đ các trang tin tc thc tế là hu hết tu đề ca tin tc đã nêu nội dung
ca s kin. Tác gi xây dng các t đin danh từ, động t, thc th và các luật để bt s kin
sau đó dùng độ tương đồng cô-sin gia các t/cm t để gom nhóm các s kin. Cui cùng s
dng yếu t thời gian đ u chui s kiên. T chui s kin phát hin được trên các tiêu đ
ta tiến hành xâu chuỗic văn bản tương ứng với các tiêu đề đó.
T khóa: xâu chuỗi văn bn, s kin, chui s kin