ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Thu Thùy
TRÍCH CHN THỰC THTÊN NGƯỜI TRONG
TIẾNG VIỆT
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY
Ngành: Công nghthông tin
HÀ NỘI – 2009
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Thu Thùy
TRÍCH CHN THỰC THTÊN NGƯỜI TRONG
TIẾNG VIỆT
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY
Ngành: Công nghthông tin
Cán bộ hướng dẫn: TS. Nguyễn T Thành
HÀ NỘI – 2009
i
Lời cảm ơn
Trước tiên, em mun gi li cảm ơn u sắc nht đến thy giáo, TS. Nguyễn Trí
Thành, nhng người đã tn tình hướng dn em trong sut quá trình thc hiện khóa
lun này.
Em xin bày tỏ li cảm ơn u sắc đến nhng thy giáo đã giảng dy em trong
bốn năm học qua, đã cho em những kiến thc quý báu đ em thvng bưc trên
con đường đi của mình.
Tôi xin gửi lời cảm ơn sâu sắc tới các bạn trong lớp K50 CA đã ủng hộ và
khuyến khích tôi trong suốt quá trình học tập tại trường.
Và lời cui cùng, tôi xin bày tlòng chân thành và biết ơn vô hạn tới cha mvà
em trai tôi, nhng ngưi luôn bên cạnh tôi những lúc tôi khó khăn nhất, giúp tôi vượt
qua nhng khó khăn trong học tập cũng như trong cuc sng.
Xin chân thành cm ơn!
Sinh Viên
Thu Thùy
ii
Tóm tắt
Trích chọn các loại thc th i chung, cũng như trích chọn tên người nói riêng
mt bước bn trong trích chọn thông tin t văn bản và x ngôn ngtnhiên.
được ng dụng nhiu trong dch tđng, tóm tắt văn bn, hiu ngôn ngtnhiên,
nhn biết tên thc thtrong sinh/y học đc bit ng dụng trong vic tích hp t
động các đối tưng, thc thtmôi trường Web vào các ontology ngnghĩa và các
stri thc.
Trong khóa lun này, em trình bày mt giải pháp trích chọn thc th tên người
cho c văn bản tiếng Vit trên môi trường Web. Sau khi xem xét các hướng tiếp cn
khác nhau, em đã lựa chọn phương pháp da trên giải thuật m rộng quan hmẫu đối
ngẫu lặp lại (Dual Interative Pattern Relation Expansion - DIPRE) [17] mà Brin đã đ
xuất. Đây phương pp s dụng học bán giám sát (semi-supervised), dựa trên các
ngcảnh (occurrences) xung quanh các thc thể đtrích chọn quan hệ mẫu, từ đó đưa
ra được danh sách các thực thể cần nhận biết.
iii
Mục lục
Lời cảm ơn ...................................................................................................................i
Tóm tắt........................................................................................................................ii
Mục lục ..................................................................................................................... iii
Bảng từ viết tắt ............................................................................................................v
Danh sách hình v.......................................................................................................vi
Mở đầu ........................................................................................................................1
Chương 1. Bài toán trích chọn .....................................................................................3
thực thể tên người........................................................................................................3
1.1. Trích chọn thông tin..........................................................................................3
1.2. Tổng quan về bài toán trích chọn thực thể tên ...................................................4
1.3. Bài toán trích chọn thực thể tên người trong văn bản tiếng Việt trên môi trường
web..........................................................................................................................5
1.4. Ý nghĩa của bài toán trích chn thực thể tên người............................................7
Chương 2. Các hướng tiếp cận trong trích chọn thông tin ............................................9
2.1. Phương pháp dựa trên học máy .........................................................................9
2.1.1. Mô hình Markov ẩn (HMM).......................................................................9
2.1.1.1. Tổng quan về HMM ............................................................................9
2.1.1.2. Hạn chế của mô hình HMM...............................................................11
2.1.2. Mô hình Markov cực đại hóa Entropy (MEMM) ......................................11
2.1.2.1. Tổng quan về mô hình MEMM .........................................................11
2.1.2.2. Vấn đ Label Bias .............................................................................12
2.1.3. Mô hình trường điều kiện ngẫu nhiên (CRF) ............................................13
2.1.3.1. Tổng quan về mô hình CRF...............................................................13
2.1.3.2. Hàm tiềm năng của hình CRF......................................................14
2.2. Phương pháp tiếp cn dựa trên h luật.............................................................16
2.2.1 Tổng quan về tiếp cận dựa trên hluật ......................................................16
2.2.2 Giải thuật DIPRE ......................................................................................16
2.2.1.1. Tổng quan về học bán giám sát..........................................................16
2.2.1.2. Gii thuật DIPRE...............................................................................18
2.3 Tổng kết chương ..............................................................................................21
Chương 3. Hệ thống trích chọn tên người trong văn bản tiếng Việt trên môi trường
Web...........................................................................................................................22
3.1 Hướng giải quyết bài toán................................................................................22
3.2 Thực nghiệm....................................................................................................27
3.2.1. Môi trường thực hiện................................................................................27
3.2.2 Thu thập dữ liệu ........................................................................................27
3.3. Khảo sát và y dựng thủ công các tập dữ liệu từ điển ban đu .......................27
3.3.1. Tập dữ liệu từ điển ban đầu và tp mẫu ....................................................27
3.3.2. Giới hạn vòng lặp.....................................................................................29
3.4 Đánh giá hệ thống nhận dạng thực th.............................................................29
3.4.1. Kết quả.....................................................................................................30
3.4.2. Đánh giá...................................................................................................31