Trang chủ » Luận Văn - Báo Cáo » Công nghệ thông tin

45 trang

191 lượt xem

LUẬN VĂN: PHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC

Trong khóa luận này em trình bày một phương pháp để trích chọn thực thể tên tổ chức tiếng Việt trong văn bản tiếng Việt trên môi trường Web. Phương pháp này dựa trên ý tưởng của Sergey Brin mà cụ thể hơn là thuật toán DIPRE trong việc trích chọn cặp quan hệ tên sách và tác giả của những cuốn sách tiếng Anh trên môi trường Web. Ưu điểm của phương pháp này là cần ít sự can thiệp của con người, không cần sự hỗ trợ của các ứng dụng phụ như xác định từ loại (POS...

Chủ đề:

chieu_mua

Đồ án môn mạng máy tính

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Vũ Quốc Đạt

PHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ

TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

HÀ NỘI - 2009

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Vũ Quốc Đạt

PHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ

TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

Cán bộ hướng dẫn: TS. Nguyễn Trí Thành

HÀ NỘI – 2009

Lời cảm ơn

Trước tiên em muốn gửi lời cảm ơn sâu sắc nhất đến thầy giáo, TS. Nguyễn Trí

Thành, người đã giúp em chọn đề tài, đưa ra những nhận xét quý giá và trực tiếp

hướng dẫn giúp em hoàn thành luận văn tốt nghiệp. Em xin chân thành cảm ơn các

thầy cô giáo trong khoa CNTT- Trường Đại học Công Nghệ - ĐHQG Hà Nội đã

truyền đạt kiến thức cho em trong suốt thời gian học tập tại trường.

Trong suốt thời gian làm khóa luận, em đã nhận được nhiều sự giúp đỡ, động

viên từ gia đình, thầy cô và bạn bè. Em xin gửi lời cảm ơn tới những người bạn của

em, luôn bên cạnh em để chia sẽ những kiến thức, kinh nghiệm học tập cũng như trong

cuộc sống.

Cuối cùng, em xin gửi lời cảm ơn sâu sắc nhất tới gia đình của mình, nguồn

động viên và cổ vũ lớn lao, và là động lực giúp em thành công trong công việc và

trong cuộc sống.

Sinh viên

Vũ Quốc Đạt

Tóm tắt nội dung

Trích chọn thông tin là lĩnh vực quan trọng trong khai phá dữ liệu, trong đó trích

chọn thực thể là một bài toán con, cơ bản nhưng đóng vai trò hết sức quan trọng. Nó

có thể được sử dụng để hỗ trợ cho phương pháp tìm kiếm mới – tìm kiếm hướng thực

thể, và góp phần quan trọng cho việc xây dựng web ngữ nghĩa.

Có nhiều phương pháp tiếp cận khác nhau cho bài toán trích chọn thực thể như

phương pháp học máy HMM, … Trong khóa luận này em trình bày một phương pháp

để trích chọn thực thể tên tổ chức tiếng Việt trong văn bản tiếng Việt trên môi trường

Web. Phương pháp này dựa trên ý tưởng của Sergey Brin mà cụ thể hơn là thuật toán

DIPRE trong việc trích chọn cặp quan hệ tên sách và tác giả của những cuốn sách

tiếng Anh trên môi trường Web. Ưu điểm của phương pháp này là cần ít sự can thiệp

của con người, không cần sự hỗ trợ của các ứng dụng phụ như xác định từ loại (POS –

tag). Kết quả thực nghiệm trên các văn bản tiếng Việt cho thấy phương pháp này

tương đối khả quan.

Mục lục

Lời cảm ơn............................................................................................................................3

Tóm tắt nội dung...................................................................................................................4

Bảng từ viết tắt .....................................................................................................................0

Mở đầu..................................................................................................................................1

CHƯƠNG 1. SƠ LƯỢC BÀI TOÁN TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC....3

1.1. Tổng quan về trích chọn thông tin..........................................................................3

1.2. Bài toán rút trích thực thể tên tổ chức.....................................................................4

1.3. Ý nghĩa của bài toán rút trích thực thể tên tổ chức.................................................5

CHƯƠNG 2. HƯỚNG TIẾP CẬN BÀI TOÁN TRÍCH CHỌN THỰC THỂ...............6

2.1. Rút trích cặp quan hệ (title, author) của cuốn sách trong tài liệu web ...................6

2.1.1. Occurrences của sách .......................................................................................6

2.1.2. Patterns của sách ..............................................................................................7

2.1.3. Quy trình rút trích.............................................................................................7

2.1.4. Thuật toán sinh Patterns...................................................................................8

2.2. Thu thập tên và miền tương ứng từ tập tài liệu web...............................................9

2.3. Hệ thống Snowball................................................................................................13

2.3.1. Sinh patterns...................................................................................................13

2.3.2. Sinh cặp quan hệ............................................................................................15

2.4. Tổng kết chương ...................................................................................................16

CHƯƠNG 3........................................................................................................................17

3.1. Mô hình tổng quát.................................................................................................17

3.2. Mô hình chi tiết.....................................................................................................19

3.2.1. Find_IndexsOfPrefixPattern ..........................................................................20

3.2.2. Extract_CandidateStrings...............................................................................21

3.2.3. Trim................................................................................................................22

3.2.4. Filter_Entities.................................................................................................22

LUẬN VĂN: PHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC

Chủ đề:

Tài liệu liên quan

Tài liêu mới

Xác nhận đăng nhập

Đăng nhập từ tài khoản này?

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi