Trang chủ » Luận Văn - Báo Cáo » Thạc sĩ - Tiến sĩ - Cao học

74 trang

60 lượt xem

Luận văn Thạc sĩ Hệ thống thông tin: Nhận diện tên riêng tiếng Việt bằng phương pháp học sâu

Mục tiêu nghiên cứu của luận văn "Nhận diện tên riêng tiếng Việt bằng phương pháp học sâu" là xây dựng một hệ thống nhận diện tên riêng tiếng Việt sử dụng phương pháp học sâu mạng nơ ron ngắn dài song song BiLSTM của kiến trúc học sâu Deeplearning với sự hỗ trợ của ma trận được huấn luyện sẵn trước của tiếng Việt và các công cụ trích xuất đặc trưng.

matroinho2510

UBND TỈNH BÌNH DƢƠNG

TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT

NGUYỄN ANH DŨNG

NHẬN DIỆN TÊN RIÊNG TIẾNG VIỆT BẰNG

PHƢƠNG PHÁP HỌC SÂU

LUẬN VĂN THẠC SĨ

CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN

MÃ SỐ: 8480104

NGƢỜI HƢỚNG DẪN KHOA HỌC

TS. BÙI THANH HÙNG

BÌNH DƢƠNG - 2019

LỜI CAM ĐOAN

Tôi là Nguyễn Anh Dũng, học viên lớp CH16HT, ngành Hệ thống thông tin,

trƣờng Đại học Thủ Dầu Một. Tôi cam đoan, luận văn của tôi với đề tài ―Nhận diện

tên riêng tiếng Việt bằng phƣơng pháp học sâu‖ là do tôi tìm hiểu, nghiên cứu và

đƣợc sự hƣớng dẫn tận tình của TS. Bùi Thanh Hùng, luận văn này của tôi có tham

khảo từ các bài báo, tài liệu, công trình nghiên cứu của ngƣời khác nhƣng tôi đều

ghi rõ trong tài liệu tham khảo. Tôi xin chịu trách nhiệm về lời cam đoan này.

Bình Dương, ngày 01 tháng 6 năm 2019

Ngƣời viết luận văn

Nguyễn Anh Dũng

iii

LỜI CẢM ƠN

Trong quá trình thực hiện luận văn ―Nhận diện tên riêng tiếng Việt bằng

phƣơng pháp học sâu‖, tôi đã đƣợc sự hƣớng dẫn nhiệt tình của TS. Bùi Thanh

Hùng. Thầy đã dành rất nhiều thời gian quý báu của mình để hƣớng dẫn chi tiết,

nghe báo cáo thử và động viên tinh thần tôi trong những lúc khó khăn khi thực hiện

luận văn. Tôi chân thành cảm ơn thầy!

Tôi cũng bày tỏ lòng biết ơn sâu sắc đến các thầy cô đã giảng dạy tôi tận tình,

truyền đạt những kiến thức bổ ích cho tôi trong suốt thời gian học tại trƣờng và các

thầy cô của trƣờng Đại học Thủ Dầu Một đã tạo điều kiện tốt nhất để tôi hoàn thành

luận văn này.

Cuối cùng, tôi cũng gửi lời cảm ơn đến gia đình, đồng nghiệp, các anh chị

học chung lớp đã đoàn kết, giúp đỡ, động viên tôi trong suốt thời gian học vừa qua.

Một lần nữa, tôi xin trân trọng cảm ơn.

Bình Dƣơng, ngày tháng năm 2019

Ngƣời viết luận văn

MỤC LỤC

MỤC LỤC ................................................................................................................ IV

TÓM TẮT LUẬN VĂN ............................................................................................. 1

DANH MỤC TỪ VIẾT TẮT ...................................................................................... 2

DANH MỤC CÁC BẢNG .......................................................................................... 3

DANH MỤC HÌNH VẼ, ĐỒ THỊ .............................................................................. 4

CHƢƠNG I. GIỚI THIỆU CHUNG .......................................................................... 6

1.1. LÍ DO THỰC HIỆN ĐỀ TÀI ....................................................................................... 6

1.2. MỤC TIÊU NGHIÊN CỨU ......................................................................................... 7

1.3. ĐỐI TƢỢNG, PHẠM VI NGHIÊN CỨU ....................................................................... 7

1.4. PHƢƠNG PHÁP NGHIÊN CỨU .................................................................................. 7

1.5. Ý NGHĨA KHOA HỌC VÀ Ý NGHĨA THỰC TIỄN CỦA ĐỀ TÀI ..................................... 7

1.5.1. Ý nghĩa khoa học........................................................................................... 7

1.5.2. Ý nghĩa thực tiễn ........................................................................................... 8

1.6. BỐ CỤC LUẬN VĂN ................................................................................................ 9

CHƢƠNG II. CƠ SỞ LÝ THUYẾT ......................................................................... 11

2.1. XỬ LÝ NGÔN NGỮ TỰ NHIÊN ............................................................................... 11

2.1.1. Tách từ (Tokenizer) ..................................................................................... 12

2.1.2. Xác định loại từ trong câu (Part-of-Speech tagging - POS tagging) ......... 14

2.1.3. Xác định cụm từ (Chunking) ....................................................................... 15

2.1.4. Phân tích cú pháp (Parsing) ....................................................................... 17

2.2. CÁC PHƢƠNG PHÁP BIỂU DIỄN TỪ DƢỚI DẠNG VÉC TƠ ....................................... 18

2.2.1. Biểu diễn túi từ - Bag of words ................................................................... 18

2.2.2 Biểu diễn One-hot-vector ............................................................................. 19

2.2.3. Túi từ liên tục - CBOW ............................................................................... 21

2.2.4. Skip gram .................................................................................................... 24

2.3. HỌC SÂU - DEEP LEARNING ................................................................................ 27

2.3.1. Mạng nơ ron nhân tạo (ANN) ..................................................................... 30

2.3.2. Mạng nơ-ron hồi quy RNN (Recurrent Neural Network) ........................... 35

2.3.3. Bộ nhớ dài-ngắn LSTM (Long-short term memory) ................................... 37

2.3.4. Mạng nơ ron ngắn dài song song LSTM (Bidirectional Long-short term

memory) ..................................................................................................................... 42

2.4. NHẬN DIỆN TÊN RIÊNG (NAME ENTITY RECOGNITION – NER) .......................... 43

2.4.1. Tổng quan về bài toán Nhận diện tên riêng ............................................... 43

2.4.2. Hướng tiếp cận nghiên cứu ......................................................................... 44

2.4.3. Các nghiên cứu gần đây ............................................................................. 44

2.4.4. Đề xuất hướng nghiên cứu .......................................................................... 45

CHƢƠNG III. MÔ HÌNH ĐỀ XUẤT ...................................................................... 46

3.1. TỔNG QUAN MÔ HÌNH ĐỀ XUẤT........................................................................... 46

3.2. CÁC ĐẶC TRƢNG CỦA MÔ HÌNH ĐỀ XUẤT ............................................................ 47

3.2.1. Từ nhúng – Word embeddings .................................................................... 47

3.2.2. Các đặc trưng cú pháp................................................................................ 48

3.3. NHẬN DIỆN TÊN RIÊNG TIẾNG VIỆT .................................................................... 48

3.3.1 Mô hình học sâu trong bài toán nhận diện tên riêng tiếng Việt .................. 51

3.3.2. Nhận diện tên riêng..................................................................................... 53

CHƢƠNG IV. THỰC NGHIỆM .............................................................................. 55

4.1. KHO DỮ LIỆU VLSP ............................................................................................ 55

4.2. PHƢƠNG PHÁP ĐÁNH GIÁ MÔ HÌNH ..................................................................... 57

4.3.1 Thực nghiệm giữa phương pháp LSTM và BiLSTM với đặc trưng từ ......... 59

4.3.2 Thực nghiệm BiLSTM với đặc trưng từ và số vòng huấn luyện khác nhau . 60

4.3.3 Thực nghiệm phương pháp sử dụng các lớp BiLSTM với đặc trưng từ ...... 61

4.3.4 Thực nghiệm phương pháp BiLSTM với đặc trưng từ và tỉ lệ Dropout khác

nhau ........................................................................................................................... 61

4.4. XÂY DỰNG ỨNG DỤNG WEB TRỰC QUAN HÓA KẾT QUẢ ..................................... 62

CHƢƠNG V. KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ......................................... 67

5.1. KẾT QUẢ ĐẠT ĐƢỢC ............................................................................................ 67

5.2. HƢỚNG PHÁT TRIỂN ............................................................................................ 67

TÀI LIỆU THAM KHẢO ......................................................................................... 68

Tài liêu mới

Luận án Tiến sĩ: Nghiên cứu xây dựng thuật toán thích nghi và học tăng cường cấu trúc Actor - Critic điều khiển bám quỹ đạo cho robot di động đa hướng mecanum

Luận án Tiến sĩ: Cơ cấu bệnh tim mạch và chất lượng cuộc sống của người cao tuổi mắc suy tim, rung nhĩ điều trị tại Bệnh viện Thống Nhất, thành phố Hồ Chí Minh

Tóm tắt Luận án Tiến sĩ: Nghiên cứu hiện tượng nứt dăm đê sông vùng đồng bằng sông Hồng và dự báo khả năng bị nứt của một số đoạn đê

Tóm tắt Luận án Tiến sĩ: Nghiên cứu xây dựng giải pháp đảm bảo an toàn thông tin cho quá trình học liên kết dựa trên mật mã

Tóm tắt Luận án Tiến sĩ: Phát triển năng lực đánh giá công nghệ cho học sinh trong dạy học môn Công nghệ 11 ở trường trung học phổ thông

Tóm tắt Luận án Tiến sĩ: Nghiên cứu phân loại chi cầu diệp – Bulbophyllum Thouars (Orchidaceae) ở vùng Tây Nguyên bằng phương pháp hình thái và phân tử

Tóm tắt Luận án Tiến sĩ: Nghiên cứu đặc điểm phân bố và dinh dưỡng của các loài lưỡng cư ở Vườn Quốc gia Bến En và Khu bảo tồn thiên nhiên Pù Luông, tỉnh Thanh Hóa

Luận án Tiến sĩ: Tổng hợp luật dẫn và điều khiển cho một lớp tên lửa đối hải trên cơ sở ứng dụng mạng nơ ron và hệ mờ

Luận án Tiến sĩ: Nghiên cứu tổng hợp hệ điều khiển góc Pitch tua bin gió trong điều kiện có nhiễu tác động

Luận án Tiến sĩ: Nghiên cứu hóa học lipid của hai loài san hô thủy tức Millepora dichotoma và Millepora platyphylla ở Việt Nam

Luận án Tiến sĩ: Nghiên cứu kiểm soát phân phối công suất kéo trên cầu chủ động của ô tô con bằng ABS

Luận án Tiến sĩ: Ứng dụng phản ứng Domino vào tổng hợp các dẫn xuất Podophyllotoxin, Pyrimidine và đánh giá hoạt tính sinh học của các chất tổng hợp được

Luận văn Thạc sĩ Hệ thống thông tin: Nhận diện tên riêng tiếng Việt bằng phương pháp học sâu

Có thể bạn quan tâm

Bài giảng Phân tích và thiết kế hệ thống thông tin giáo dục

Luận văn Thạc sĩ: Quản lý hoạt động phát triển nhận thức cho trẻ mẫu giáo ở các trường mầm non, huyện Hoàng Su Phì, tỉnh Hà Giang

Đồ án chuyên ngành: Tìm hiểu hệ thống thông tin quang truyền trong không gian tự do và mô phỏng hệ thống đơn giản

Bài thảo luận nhóm: Phân tích mô hình kinh doanh của Công ty Cổ phần Thế Giới Di Động

Tài liệu Hướng dẫn thực hành Cơ sở dữ liệu

Áp dụng mô hình thí điểm và đánh giá kiểm tra, giám sát việc xây dựng, áp dụng hệ thống quản lý chất lượng theo tiêu chuẩn quốc gia TCVN ISO 9001:2015 và tích hợp, kết nối, chia sẻ dữ liệu trong phần mềm ISO điện tử

Ứng dụng hệ thống thông tin địa lý trong xây dựng bản đồ dịch tễ địa không gian một số bệnh truyền nhiễm tại tỉnh Yên Bái (2014-2023)

Luận văn Thạc sĩ tóm tắt: Pháp luật về điều kiện đầu tư kinh doanh trong lĩnh vực giáo dục, đào tạo ở Việt Nam

Luận văn Thạc sĩ: Sự nghiệp nghiên cứu phê bình văn học của Hoài Thanh

Luận văn Thạc sĩ: Tiểu thuyết của Đỗ Phấn từ góc nhìn sinh thái

Luận văn Thạc sĩ: Giải pháp ứng phó với nhập cư ở Liên minh Châu Âu

Luận văn Thạc sĩ: Diễn ngôn về giới nữ trong văn xuôi nữ Việt Nam đương đại (khảo sát sáng tác của Dạ Ngân, Y Ban, Lý Lan, Nguyễn Thị Thu Huệ)

Luận văn Thạc sĩ: Xây dựng mức phát thải tham chiếu rừng khu vực huyện Bảo Lâm tỉnh Lâm Đồng

Luận văn Thạc sĩ: Đặc điểm nhân vật chính trong ba tác phẩm của Franz Kafka: Lâu đài, Vụ án, Hóa thân

Kháo luận tốt nghiệp: Vận dụng lí thuyết học tập trải nghiệm vào dạy học Thống kê - Xác suất ở lớp Hai

Luận văn Thạc sĩ: Xây dựng hệ thống điều khiển và thu nhận dữ liệu cho Robot dịch vụ

Luận văn Thạc sĩ: Thế giới nhân vật trong truyện ngắn Lê Minh Khuê sau năm 1975

Luận văn Thạc sĩ: Tác động của cấu trúc vốn đến hiệu quả hoạt động của các ngân hàng thương mại cổ phần niêm yết trên thị trường chứng khoán Việt Nam

Luận văn Thạc sĩ: Kiểm soát rủi ro tín dụng bán lẻ tại Ngân hàng Thương mại Cổ phần Đầu tư và Phát triển Việt Nam chi nhánh Thủ Thiêm

Luận văn Thạc sĩ: Các yếu tố ảnh hưởng đến hiệu quả kinh doanh của ngân hàng thương mại cổ phần niêm yết trên thị trường chứng khoán Việt Nam

Tài liêu mới

Luận án Tiến sĩ: Nghiên cứu xây dựng thuật toán thích nghi và học tăng cường cấu trúc Actor - Critic điều khiển bám quỹ đạo cho robot di động đa hướng mecanum

Luận án Tiến sĩ: Cơ cấu bệnh tim mạch và chất lượng cuộc sống của người cao tuổi mắc suy tim, rung nhĩ điều trị tại Bệnh viện Thống Nhất, thành phố Hồ Chí Minh

Tóm tắt Luận án Tiến sĩ: Nghiên cứu hiện tượng nứt dăm đê sông vùng đồng bằng sông Hồng và dự báo khả năng bị nứt của một số đoạn đê

Tóm tắt Luận án Tiến sĩ: Nghiên cứu xây dựng giải pháp đảm bảo an toàn thông tin cho quá trình học liên kết dựa trên mật mã

Tóm tắt Luận án Tiến sĩ: Phát triển năng lực đánh giá công nghệ cho học sinh trong dạy học môn Công nghệ 11 ở trường trung học phổ thông

Tóm tắt Luận án Tiến sĩ: Nghiên cứu phân loại chi cầu diệp – Bulbophyllum Thouars (Orchidaceae) ở vùng Tây Nguyên bằng phương pháp hình thái và phân tử

Tóm tắt Luận án Tiến sĩ: Nghiên cứu đặc điểm phân bố và dinh dưỡng của các loài lưỡng cư ở Vườn Quốc gia Bến En và Khu bảo tồn thiên nhiên Pù Luông, tỉnh Thanh Hóa

Luận án Tiến sĩ: Tổng hợp luật dẫn và điều khiển cho một lớp tên lửa đối hải trên cơ sở ứng dụng mạng nơ ron và hệ mờ

Luận án Tiến sĩ: Nghiên cứu tổng hợp hệ điều khiển góc Pitch tua bin gió trong điều kiện có nhiễu tác động

Luận án Tiến sĩ: Nghiên cứu hóa học lipid của hai loài san hô thủy tức Millepora dichotoma và Millepora platyphylla ở Việt Nam

Luận án Tiến sĩ: Nghiên cứu kiểm soát phân phối công suất kéo trên cầu chủ động của ô tô con bằng ABS

Luận án Tiến sĩ: Ứng dụng phản ứng Domino vào tổng hợp các dẫn xuất Podophyllotoxin, Pyrimidine và đánh giá hoạt tính sinh học của các chất tổng hợp được

Luận án Tiến sĩ: Nghiên cứu thành phần hóa học và một số hoạt tính sinh học của cây chùm ngây (Moringa oleifera)

Tóm tắt Luận án Tiến sĩ: Nghiên cứu thành phần hóa học và ứng dụng ức chế ăn mòn cho thép của cao chiết xuất từ cây Lộc vừng thuộc họ Lecythidaceae

Luận án Tiến sĩ: Nghiên cứu hiện tượng nứt dăm đê sông vùng đồng bằng sông Hồng và dự báo khả năng bị nứt của một số đoạn đê

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Giới thiệu

Về chúng tôi

Việc làm

Quảng cáo

Liên hệ

Chính sách

Thoả thuận sử dụng

Chính sách bảo mật

Chính sách hoàn tiền

DMCA

Hỗ trợ

Hướng dẫn sử dụng

Đăng ký tài khoản VIP

093 303 0098

support@tailieu.vn

Phương thức thanh toán

Theo dõi chúng tôi

Facebook

Youtube

TikTok