
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Thu Thùy
TRÍCH CHỌN THỰC THỂ TÊN NGƯỜI TRONG
TIẾNG VIỆT
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI – 2009

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Thu Thùy
TRÍCH CHỌN THỰC THỂ TÊN NGƯỜI TRONG
TIẾNG VIỆT
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: TS. Nguyễn Trí Thành
HÀ NỘI – 2009

i
Lời cảm ơn
Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến thầy giáo, TS. Nguyễn Trí
Thành, những người đã tận tình hướng dẫn em trong suốt quá trình thực hiện khóa
luận này.
Em xin bày tỏ lời cảm ơn sâu sắc đến những thầy cô giáo đã giảng dạy em trong
bốn năm học qua, đã cho em những kiến thức quý báu để em có thể vững bước trên
con đường đi của mình.
Tôi xin gửi lời cảm ơn sâu sắc tới các bạn trong lớp K50 CA đã ủng hộ và
khuyến khích tôi trong suốt quá trình học tập tại trường.
Và lời cuối cùng, tôi xin bày tỏ lòng chân thành và biết ơn vô hạn tới cha mẹ và
em trai tôi, những người luôn ở bên cạnh tôi những lúc tôi khó khăn nhất, giúp tôi vượt
qua những khó khăn trong học tập cũng như trong cuộc sống.
Xin chân thành cảm ơn!
Sinh Viên
Lê Thu Thùy

ii
Tóm tắt
Trích chọn các loại thực thể nói chung, cũng như trích chọn tên người nói riêng
là một bước cơ bản trong trích chọn thông tin từ văn bản và xử lý ngôn ngữ tự nhiên.
Nó được ứng dụng nhiều trong dịch tự động, tóm tắt văn bản, hiểu ngôn ngữ tự nhiên,
nhận biết tên thực thể trong sinh/y học và đặc biệt ứng dụng trong việc tích hợp tự
động các đối tượng, thực thể từ môi trường Web vào các ontology ngữ nghĩa và các cơ
sở tri thức.
Trong khóa luận này, em trình bày một giải pháp trích chọn thực thể tên người
cho các văn bản tiếng Việt trên môi trường Web. Sau khi xem xét các hướng tiếp cận
khác nhau, em đã lựa chọn phương pháp dựa trên giải thuật mở rộng quan hệ mẫu đối
ngẫu lặp lại (Dual Interative Pattern Relation Expansion - DIPRE) [17] mà Brin đã đề
xuất. Đây là phương pháp sử dụng học bán giám sát (semi-supervised), dựa trên các
ngữ cảnh (occurrences) xung quanh các thực thể để trích chọn quan hệ mẫu, từ đó đưa
ra được danh sách các thực thể cần nhận biết.

iii
Mục lục
Lời cảm ơn ...................................................................................................................i
Tóm tắt........................................................................................................................ii
Mục lục ..................................................................................................................... iii
Bảng từ viết tắt ............................................................................................................v
Danh sách hình vẽ.......................................................................................................vi
Mở đầu ........................................................................................................................1
Chương 1. Bài toán trích chọn .....................................................................................3
thực thể tên người........................................................................................................3
1.1. Trích chọn thông tin..........................................................................................3
1.2. Tổng quan về bài toán trích chọn thực thể tên ...................................................4
1.3. Bài toán trích chọn thực thể tên người trong văn bản tiếng Việt trên môi trường
web..........................................................................................................................5
1.4. Ý nghĩa của bài toán trích chọn thực thể tên người............................................7
Chương 2. Các hướng tiếp cận trong trích chọn thông tin ............................................9
2.1. Phương pháp dựa trên học máy .........................................................................9
2.1.1. Mô hình Markov ẩn (HMM).......................................................................9
2.1.1.1. Tổng quan về HMM ............................................................................9
2.1.1.2. Hạn chế của mô hình HMM...............................................................11
2.1.2. Mô hình Markov cực đại hóa Entropy (MEMM) ......................................11
2.1.2.1. Tổng quan về mô hình MEMM .........................................................11
2.1.2.2. Vấn đề Label Bias .............................................................................12
2.1.3. Mô hình trường điều kiện ngẫu nhiên (CRF) ............................................13
2.1.3.1. Tổng quan về mô hình CRF...............................................................13
2.1.3.2. Hàm tiềm năng của mô hình CRF......................................................14
2.2. Phương pháp tiếp cận dựa trên hệ luật.............................................................16
2.2.1 Tổng quan về tiếp cận dựa trên hệ luật ......................................................16
2.2.2 Giải thuật DIPRE ......................................................................................16
2.2.1.1. Tổng quan về học bán giám sát..........................................................16
2.2.1.2. Giải thuật DIPRE...............................................................................18
2.3 Tổng kết chương ..............................................................................................21
Chương 3. Hệ thống trích chọn tên người trong văn bản tiếng Việt trên môi trường
Web...........................................................................................................................22
3.1 Hướng giải quyết bài toán................................................................................22
3.2 Thực nghiệm....................................................................................................27
3.2.1. Môi trường thực hiện................................................................................27
3.2.2 Thu thập dữ liệu ........................................................................................27
3.3. Khảo sát và xây dựng thủ công các tập dữ liệu từ điển ban đầu .......................27
3.3.1. Tập dữ liệu từ điển ban đầu và tập mẫu ....................................................27
3.3.2. Giới hạn vòng lặp.....................................................................................29
3.4 Đánh giá hệ thống nhận dạng thực thể.............................................................29
3.4.1. Kết quả.....................................................................................................30
3.4.2. Đánh giá...................................................................................................31

