ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Ngô Quang Hiu
PHÂN TÍCH VÀ TRC QUAN HÓA CHUI S KIN
DNG H THNG LIFEFLOW
KHOÁ LUN TT NGHIỆP ĐẠI HC H CHÍNH QUY
Ngành: Công Ngh Thông Tin
HÀ NI - 2013
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Ngô Quang Hiu
PHÂN TÍCH VÀ TRC QUAN HÓA CHUI S KIN
DNG H THNG LIFEFLOW
KHOÁ LUN TT NGHIP ĐẠI HC H CHÍNH QUY
Ngành: Công Ngh Thông Tin
Cán b ng dn: PGS.TS Hà Quang Thy
Cán b đồng hưng dn: ThS. Vũ Ngọc Trình
i
Li cảm ơn
Trưc tiên, tôi xin gi li cảm ơn chân thành sâu sắc nhất đến PGS.TS
Quang Thy, ThS. Tiến Trình, những người đã tận tình hướng dn, ch bo tôi trong
sut quá trình thc hin khóa lun tt nghip.
Tôi xin cảm ơn các thầy cán b của trường Đại hc Công Ngh đã dạy bo
cũng như tạo điều kin cho tôi hc tp và nghiên cu tại đây.
Tôi cũng xin cảm ơn các anh chị, các bn trong phòng thí nghim công ngh tri
thc KT-Lab đã giúp đ tôi rt nhiu trong vic h tr các vấn đề chuyên môn trong hc
tp và trong quá trình thc hin khóa lun.
Tôi xin gi li cảm ơn đến các bn trong lớp K54CD đã ng h, khích lệ, giúp đỡ
tôi rt nhiu trong quá trình hc tp và rèn luyn ti trưng.
Cui cùng, tôi mun gi li biết ơn hạn tới gia đình, bạn bè, người thân, đặc
bit là b m em gái tôi, những ngưi luôn dành cho tôi s yêu thương, tin tưởng, luôn
sát cánh bên tôi, h tr v mi mt, khuyến khích ng h đ tôi th vượt qua nhng
khó khăn và đạt đưc nhng thành công trong hc tp và cuc sng.
Tôi xin chân thành cảm ơn!
Hà Nội, ngày 10 tháng 5 năm 2013
Sinh viên
Ngô Quang Hiu
ii
TÓM TT NI DUNG
Phân tích trích chn chui s kin là quá trình trích chn thông tin trong các
văn bản có cha s kiện, nhóm các văn bn cùng nói v mt s kin thành chui theo th
t thời gian. Đây một bài toán tính ng dng thc tiễn cao nên đã đang nhn
được s quan m nghiên cu ca nhiu nhà khoa hc, chng hn ti các hi ngh khoa
hc quc tế uy tín như MUC (Message Understand Conference), chương trình TDT
(Topic Detection Tracking), chương trình ACE (Automatic Content Extraction), ti các
trung tâm nghiên cứu IBM, Microsoft…
Đi cùng với bài toán trích chn chui s kin vic trc quan hóa các chui s
kin trích chọn được. LifeFlow mt h thng trc quan hóa chui s kin do Guerra-
Gómez J. cng s (Đại hc Maryland) nghiên cu phát trin [1]. H thng cho phép
biu din theo thi gian, thng kê, và theo vết các chui s kin rt hiu qu.
Khóa lun tt nghip với đề tài “Phân tích trực quan hóa chui s kin dng h
thống LifeFlow” nghiên cu các vấn đề liên quan đến phân tích trích chn chui s
kiện đồng thi thc hin trc quan hóa các chui s kin y. Khóa lun trình y mt
s hướng tiếp cận để gii quyết bài toán phân tích trích chn chui s kin, sau đó, đề
xut mt phương pháp nhằm trích chn chui s kin áp dng trên min tin tc tiếng
Vit. Phn cui ca khóa lun t quá trình thc nghim với phương pháp đánh giá đ
tương đồng kết hp thông tin thời gian, địa điểm sau đó trc quan hóa bng h thng
LifeFlow.
T khóa: chui s kin, trích chn chui s kin, nhn dng chui s kin, phân tích
chui s kin, trc quan hóa chui s kin
iii
Lời cam đoan
Tôi xin cam đoan rng, khóa lun tt nghip với đề tài Phân tích trc quan
hóa chui s kin dng h thng LifeFlowcông trình nghiên cứu ca mình vi s
giúp đỡ ca giảng viên hướng dn PGS.TS. Quang Thy. Các ni dung kết qu
trong khóa lun y hoàn toàn là trung thực, được viết li theo cách hiu ca bn thân sau
quá trình nghiên cu, thc nghim, không h sao chép t bt ngun sn nào. Tt c
các tài liu tham kho liên quan đều được trích dn trong danh sách các tài liu tham kho
ca khóa lun.
Nếu phát hin bt kì s gian ln nào, tôi xin hoàn toàn chu trách nhim trước
hi đồng, cũng như kết qu khóa lun tt nghip ca mình.
Hà Nội, ngày 10 tháng 5 năm 2013
Sinh viên
Ngô Quang Hiu