So sánh các phương pháp Học Máy cho bài toán Gán Nhãn Từ Loại Tiếng Việt: Luận văn chi tiết

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Lê Hoàng Quỳnh

SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY

CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI

TIẾNG VIỆT

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

HÀ NỘI - 2009

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Lê Hoàng Quỳnh

SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY

CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI

TIẾNG VIỆT

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

Cán bộ hướng dẫn: PGS.TS. Hà Quang Thụy

Cán bộ đồng hướng dẫn: ThS. Trần Thị Oanh

HÀ NỘI - 2009

LỜI CẢM ƠN

Trước tiên, tôi muốn bày tỏ lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà

Quang Thụy và Thạc Sĩ Trần Thị Oanh, những người đã tận tình chỉ bảo và hướng dẫn

tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp.

Thấu hiểu nỗi vất vả cũng như sự tận tụy của những thầy cô giáo đã giảng dạy và

bồi dưỡng kiến thức cho tôi trong bốn năm qua, tôi xin gửi lời cảm ơn chân thành đến

các thầy cô, những kiến thức mà tôi nhận được không chỉ giúp tôi hoàn thành khóa

luận này mà còn là hành trang quan trọng giúp tôi vững bước trong tương lai.

Tôi cũng xin gửi lời cảm ơn tới các thầy cô, các anh chị và các bạn sinh viên

trong nhóm seminar “Khai phá dữ liệu”, phòng thí nghiệm Các hệ thống tích hợp

thông minh (SISLAB) – trường Đại học Công nghệ đã tạo một môi trường nghiên cứu

khoa học hiệu quả cũng như cho tôi những lời khuyên bổ ích về chuyên môn trong quá

trình nghiên cứu.

Bên cạnh đó, tập thể sinh viên lớp K50CA cũng đóng một vai trò không nhỏ giúp

tôi xây dựng, củng cố kiến thức và cùng với tôi vượt qua những khó khăn trong học

tập.

Và cuối cùng, nhưng vô cùng quan trọng, tôi xin bày tỏ lòng chân thành và biết

ơn vô hạn tới cha mẹ, anh chị cũng như các bạn bè thân thiết đã luôn ở bên cạnh, quan

tâm, động viên tôi trong suốt quá trình học tập và thực hiện khóa luận tốt nghiệp này.

Sinh viên

Lê Hoàng Quỳnh

TÓM TẮT

Gán nhãn từ loại (Part-of-Speech Tagging) là một trong hai bài toán nền tảng,

đóng vai trò quan trọng trong các hệ thống xử lý ngôn ngữ tự nhiên. Ở Việt Nam đã có

một số nghiên cứu về bài toán này, tuy nhiên kết quả đạt được vẫn còn ở mức khiêm

tốn so với nhiều ngôn ngữ khác. Việc tìm hiểu các phương pháp gán nhãn từ loại trong

tiếng Anh cho thấy hướng tiếp cận dựa theo phương pháp học máy cho kết quả tốt hơn

cả trong các phương pháp đã được công bố.

Nội dung khóa luận tập trung so sánh ba phương pháp học máy cho bài toán gán

nhãn từ loại tiếng Việt, đó là mô hình cực đại hóa Entropy (MEM- Jaynes, 1957); mô

hình miền ngẫu nhiên điều kiện (CRF- Laferty, 2001) và mô hình máy véc tơ hỗ trợ

(SVM- Vapnik & Chervonekis, 1995). Đây là ba phương pháp học máy đã được ứng

dụng thành công trong rất nhiều bài toán xử lý ngôn ngữ tự nhiên. Thực nghiệm áp

dụng ba mô hình học máy này được tiến hành trên cùng môi trường phần cứng và sử

dụng cùng một tập đặc trưng để đảm bảo tính khách quan. Kết quả thu được trên các

dữ liệu thực nghiệm cho thấy mô hình CRF có độ chính xác cao nhất và thời gian gán

nhãn tốt nhất, trong khi đó SVM và MEM có ưu thế hơn về thời gian huấn luyện. Kết

quả này khá tương đồng với kết quả của một vài nghiên cứu tương đương trong các

ngôn ngữ khác và đã khẳng định được tính khả thi của ba mô hình này cho tiếng Việt.

iii

Mục lục

MỞ ĐẦU.........................................................................................................................1

Chương 1. KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI...........................3

1.1. Khái niệm và vị trí của bài toán gán nhãn từ loại trong NLP ..............................3

1.1.1. Khái niệm về bài toán gán nhãn từ loại ........................................................3

1.1.2. Vị trí và ứng dụng của bài toán gán nhãn từ loại trong NLP........................4

1.2. Các khó khăn của bài toán gán nhãn từ loại.........................................................6

1.3. Tập nhãn từ loại....................................................................................................7

1.3.1. Nguyên tắc xây dựng tập nhãn từ loại và một số tập nhãn từ loại của các

ngôn ngữ trên thế giới.............................................................................................7

1.3.2. Một số tập nhãn từ loại hiện được đề xuất ở Việt Nam..............................10

Chương 2. CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI.........13

2.1. Gán nhãn bằng phương pháp dựa trên hệ luật ...................................................13

2.2. Các phương pháp dựa vào học máy ...................................................................15

2.3. Phương pháp lai..................................................................................................19

2.4. Các nghiên cứu liên quan tại Việt Nam .............................................................21

2.4.1. Các nghiên cứu dựa trên phương pháp hệ luật ...........................................21

2.4.2. Các nghiên cứu dựa trên phương pháp học máy ........................................22

2.4.3. Các nghiên cứu dựa trên phương pháp lai..................................................22

Chương 3. BA MÔ HÌNH HỌC MÁY ÁP DỤNG CHO BÀI TOÁN GÁN NHÃN

TỪ LOẠI TIẾNG VIỆT.............................................................................................25

3.1. Mô hình cực đại hóa Entropy.............................................................................25

3.1.1. Khái niệm MEM .........................................................................................25

3.1.2. Nguyên lý cực đại hóa Entropy ..................................................................26

3.1.3. Mô hình xác suất.........................................................................................26

3.1.4. Hạn chế của mô hình MEM........................................................................27

3.2. Mô hình trường ngẫu nhiên điều kiện................................................................28

3.2.1. Khái niệm CRF ...........................................................................................28

LUẬN VĂN:SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi