Trích chọn thực thể tên người trong tiếng Việt: Luận văn chi tiết

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Lê Thu Thùy

TRÍCH CHỌN THỰC THỂ TÊN NGƯỜI TRONG

TIẾNG VIỆT

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY

Ngành: Công nghệ thông tin

HÀ NỘI – 2009

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Lê Thu Thùy

TRÍCH CHỌN THỰC THỂ TÊN NGƯỜI TRONG

TIẾNG VIỆT

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY

Ngành: Công nghệ thông tin

Cán bộ hướng dẫn: TS. Nguyễn Trí Thành

HÀ NỘI – 2009

Lời cảm ơn

Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến thầy giáo, TS. Nguyễn Trí

Thành, những người đã tận tình hướng dẫn em trong suốt quá trình thực hiện khóa

luận này.

Em xin bày tỏ lời cảm ơn sâu sắc đến những thầy cô giáo đã giảng dạy em trong

bốn năm học qua, đã cho em những kiến thức quý báu để em có thể vững bước trên

con đường đi của mình.

Tôi xin gửi lời cảm ơn sâu sắc tới các bạn trong lớp K50 CA đã ủng hộ và

khuyến khích tôi trong suốt quá trình học tập tại trường.

Và lời cuối cùng, tôi xin bày tỏ lòng chân thành và biết ơn vô hạn tới cha mẹ và

em trai tôi, những người luôn ở bên cạnh tôi những lúc tôi khó khăn nhất, giúp tôi vượt

qua những khó khăn trong học tập cũng như trong cuộc sống.

Xin chân thành cảm ơn!

Sinh Viên

Lê Thu Thùy

Tóm tắt

Trích chọn các loại thực thể nói chung, cũng như trích chọn tên người nói riêng

là một bước cơ bản trong trích chọn thông tin từ văn bản và xử lý ngôn ngữ tự nhiên.

Nó được ứng dụng nhiều trong dịch tự động, tóm tắt văn bản, hiểu ngôn ngữ tự nhiên,

nhận biết tên thực thể trong sinh/y học và đặc biệt ứng dụng trong việc tích hợp tự

động các đối tượng, thực thể từ môi trường Web vào các ontology ngữ nghĩa và các cơ

sở tri thức.

Trong khóa luận này, em trình bày một giải pháp trích chọn thực thể tên người

cho các văn bản tiếng Việt trên môi trường Web. Sau khi xem xét các hướng tiếp cận

khác nhau, em đã lựa chọn phương pháp dựa trên giải thuật mở rộng quan hệ mẫu đối

ngẫu lặp lại (Dual Interative Pattern Relation Expansion - DIPRE) [17] mà Brin đã đề

xuất. Đây là phương pháp sử dụng học bán giám sát (semi-supervised), dựa trên các

ngữ cảnh (occurrences) xung quanh các thực thể để trích chọn quan hệ mẫu, từ đó đưa

ra được danh sách các thực thể cần nhận biết.

iii

Mục lục

Lời cảm ơn ...................................................................................................................i

Tóm tắt........................................................................................................................ii

Mục lục ..................................................................................................................... iii

Bảng từ viết tắt ............................................................................................................v

Danh sách hình vẽ.......................................................................................................vi

Mở đầu ........................................................................................................................1

Chương 1. Bài toán trích chọn .....................................................................................3

thực thể tên người........................................................................................................3

1.1. Trích chọn thông tin..........................................................................................3

1.2. Tổng quan về bài toán trích chọn thực thể tên ...................................................4

1.3. Bài toán trích chọn thực thể tên người trong văn bản tiếng Việt trên môi trường

web..........................................................................................................................5

1.4. Ý nghĩa của bài toán trích chọn thực thể tên người............................................7

Chương 2. Các hướng tiếp cận trong trích chọn thông tin ............................................9

2.1. Phương pháp dựa trên học máy .........................................................................9

2.1.1. Mô hình Markov ẩn (HMM).......................................................................9

2.1.1.1. Tổng quan về HMM ............................................................................9

2.1.1.2. Hạn chế của mô hình HMM...............................................................11

2.1.2. Mô hình Markov cực đại hóa Entropy (MEMM) ......................................11

2.1.2.1. Tổng quan về mô hình MEMM .........................................................11

2.1.2.2. Vấn đề Label Bias .............................................................................12

2.1.3. Mô hình trường điều kiện ngẫu nhiên (CRF) ............................................13

2.1.3.1. Tổng quan về mô hình CRF...............................................................13

2.1.3.2. Hàm tiềm năng của mô hình CRF......................................................14

2.2. Phương pháp tiếp cận dựa trên hệ luật.............................................................16

2.2.1 Tổng quan về tiếp cận dựa trên hệ luật ......................................................16

2.2.2 Giải thuật DIPRE ......................................................................................16

2.2.1.1. Tổng quan về học bán giám sát..........................................................16

2.2.1.2. Giải thuật DIPRE...............................................................................18

2.3 Tổng kết chương ..............................................................................................21

Chương 3. Hệ thống trích chọn tên người trong văn bản tiếng Việt trên môi trường

Web...........................................................................................................................22

3.1 Hướng giải quyết bài toán................................................................................22

3.2 Thực nghiệm....................................................................................................27

3.2.1. Môi trường thực hiện................................................................................27

3.2.2 Thu thập dữ liệu ........................................................................................27

3.3. Khảo sát và xây dựng thủ công các tập dữ liệu từ điển ban đầu .......................27

3.3.1. Tập dữ liệu từ điển ban đầu và tập mẫu ....................................................27

3.3.2. Giới hạn vòng lặp.....................................................................................29

3.4 Đánh giá hệ thống nhận dạng thực thể.............................................................29

3.4.1. Kết quả.....................................................................................................30

3.4.2. Đánh giá...................................................................................................31

LUẬN VĂN: TRÍCH CHỌN THỰC THỂ TÊN NGƯỜI TRONG TIẾNG VIỆT

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi