intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn Thạc sĩ Hệ thống thông tin: Phương pháp học bán giám sát cho bài toán trích chọn thông tin và ứng dụng trích chọn thực thể tên điện thoại di động

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:97

13
lượt xem
6
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn với đề tài “Phương pháp học bán giám sát cho bài toán trích chọn thông tin và ứng dụng trích chọn thực thể tên điện thoại di động” dựa trên những nghiên cứu trước đây để đề xuất nghiên cứu và phát triển một hệ thống nhận diện tên riêng tiếng Việt (ViNER) bằng cách kết hợp các đặc trưng cú pháp tự động với các từ nhúng được huấn luyện sẵn làm đầu vào cho bộ nhớ ngắn dài hai chiều (BiLSTM).

Chủ đề:
Lưu

Nội dung Text: Luận văn Thạc sĩ Hệ thống thông tin: Phương pháp học bán giám sát cho bài toán trích chọn thông tin và ứng dụng trích chọn thực thể tên điện thoại di động

  1. ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT LƯU TUẤN THÀNH PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO BÀI TOÁN TRÍCH CHỌN THÔNG TIN VÀ ỨNG DỤNG TRÍCH CHỌN THỰC THỂ TÊN ĐIỆN THOẠI DI ĐỘNG CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SỸ BÌNH DƯƠNG – 2021
  2. ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT LƯU TUẤN THÀNH PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO BÀI TOÁN TRÍCH CHỌN THÔNG TIN VÀ ỨNG DỤNG TRÍCH CHỌN THỰC THỂ TÊN ĐIỆN THOẠI DI ĐỘNG CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC TS. NGÔ THANH HÙNG BÌNH DƯƠNG – 2021
  3. LỜI CAM ĐOAN Tôi là Lưu Tuấn Thành, học viên lớp CH17HT, ngành Hệ thống thông tin, trường Đại học Thủ Dầu Một. Tôi cam đoan, luận văn “Phương pháp học bán giám sát cho bài toán trích chọn thông tin và ứng dụng trích chọn thực thể tên điện thoại di động” là công trình nghiên cứu của riêng cá nhân tôi, dưới sự hướng dẫn của TS. Ngô Thanh Hùng. Luận văn do tôi tự nghiên cứu, tìm hiểu, đọc, dịch tài liệu, tổng hợp và thực hiện. Nội dung cơ sở lý thuyết được đúc kết từ các công trình nghiên cứu trước và được biên mục trong phần tài liệu tham khảo. Các số liệu, chương trình phần mềm và những kết quả trong luận văn là trung thực và chưa được công bố trong bất kỳ một công trình nào khác. Tôi xin chịu trách nhiệm về lời cam đoan này. Bình Dương, ngày 10 tháng 10 năm 2021 Người viết luận văn Lưu Tuấn Thành
  4. LỜI CẢM ƠN Trong quá trình thực hiện luận văn “Phương pháp học bán giám sát cho bài toán trích chọn thông tin và ứng dụng trích chọn thực thể tên điện thoại di động” tôi đã được sự hướng dẫn nhiệt tình của TS. Ngô Thanh Hùng. Thầy đã dành nhiều thời gian hướng dẫn, góp ý để tôi hoàn thiện đề tài. Trong quá trình nghiên cứu thầy luôn động viên tinh thần, định hướng cho tôi trong những lúc khó khăn khi nghiên cứu. Tôi chân thành cảm ơn. Tôi cũng bày tỏ lòng biết ơn sâu sắc đến các thầy cô đã giảng dạy tôi tận tình, thầy Bùi Thanh Hùng đã truyền đạt những kiến thức bổ ích cho tôi trong suốt thời gian học tại trường Đại học Thủ Dầu Một đã tạo điều kiện tốt nhất để tôi hoàn thành luận văn này. Sau cùng, tôi cũng xin gửi lời cảm ơn đến gia đình, đồng nghiệp, các anh chị học chung lớp đã đoàn kết, sát cánh giúp đỡ, động viên tôi trong suốt thời gian học vừa qua. Một lần nữa, tôi xin Trân trọng cảm ơn. Bình Dương, ngày 10 tháng 10 năm 2021 Người viết luận văn LƯU TUẤN THÀNH II
  5. TÓM TẮT LUẬN VĂN Trong thời đại khoa học - kỹ thuật như hiện nay, thời đại của cách mạng khoa học 4.0, với sự phát triển về mọi mặt của đời sống từ văn hóa, giáo dục cho đến công nghệ trong đó lĩnh vực công nghệ thông tin đã tạo ra các sản phẩm trí tuệ nhân tạo, robot công nghệ và máy móc đang dần thay thế con người. Nhu cầu giao tiếp, thương mại điện tử và tìm kiếm thông tin rất lớn, vì thế một số ứng dụng xử lý ngôn ngữ tự nhiên như tóm tắt văn bản, máy tìm kiếm, dịch máy, trích xuất thông tin và trả lời câu hỏi tự động ngày càng phát triển. Những ứng dụng này được phát triển dựa trên nền tảng của một số các tác vụ xử lý ngôn ngữ tự nhiên. Trích chọn tên điện thoại di động trong văn bản đã được nghiên cứu trên nhiều ngôn ngữ như tiếng Anh, tiếng Nhật, tiếng Trung,… bằng nhiều phương pháp khác nhau và đã đạt được nhiều kết quả khả quan. Các phương pháp học máy trước đây như SVM, cây quyết định, … cho kết quả phân loại cũng khá tốt. Luận văn với đề tài “Phương pháp học bán giám sát cho bài toán trích chọn thông tin và ứng dụng trích chọn thực thể tên điện thoại di động” dựa trên những nghiên cứu trước đây để đề xuất nghiên cứu và phát triển một hệ thống nhận diện tên riêng tiếng Việt (ViNER) bằng cách kết hợp các đặc trưng cú pháp tự động với các từ nhúng được huấn luyện sẵn làm đầu vào cho bộ nhớ ngắn dài hai chiều (BiLSTM). Phương pháp huấn luyện hệ thống này trên tập dữ liệu mà tôi thu thập từ hàng trăm bài báo khác nhau. Bộ dữ liệu này gồm 3 tập dữ liệu huấn luyện, phê chuẩn và kiểm tra. Mỗi tập dữ liệu gồm 4 cột: Từ hoặc từ ghép, POS, CHUNK và TAG. Sau khi huấn luyện và đánh giá thực nghiệm hệ thống trên nhiều khía cạnh khác nhau bằng độ đo chính xác (Accuracy), tôi nhận thấy hệ thống kết hợp các đặc trưng cú pháp tự động với các từ nhúng được huấn luận sẵn làm đầu vào cho bộ nhớ ngắn dài hai chiều (BiLSTM) cho kết quả cao nhất đạt 74,04%. Luận văn cũng xây dựng một ứng dụng web trích xuất trực quan, nhận diện tên điện thoại di động cho một đoạn văn bản do người dùng nhập vào. I
  6. MỤC LỤC LỜI CAM ĐOAN ...................................................................................................................I LỜI CẢM ƠN ........................................................................................................................ II TÓM TẮT LUẬN VĂN ...................................................................................................... DANH MỤC VIẾT TẮT ...................................................................................................... DANH MỤC CÁC BẢNG................................................................................................... DANH MỤC HÌNH VẼ, ĐỒ THỊ ..................................................................................... CHƯƠNG I GIỚI THIỆU CHUNG ........................................................................................................ 1 1.1. Lí do thực hiện đề tài ................................................................................ 1 1.2. Mục tiêu nghiên cứu ................................................................................. 2 1.3. Đối tượng, phạm vi nghiên cứu ................................................................ 2 1.4. Phương pháp nghiên cứu .......................................................................... 3 1.5. Ý nghĩa khoa học và ý nghĩa thực tiễn của đề tài ..................................... 3 1.5.1. Ý nghĩa khoa học............................................................................... 3 1.5.2. Ý nghĩa thực tiễn ............................................................................... 4 1.6. Bố cục luận văn ........................................................................................ 4 CHƯƠNG II CƠ SỞ LÝ THUYẾT .......................................................................................................... 5 2.1. Xử lý ngôn ngữ tự nhiên ........................................................................... 5 2.1.1. Tách từ (ViTokenizer) ....................................................................... 7 2.1.2. Xác định loại từ trong câu (Part-of-Speech tagging - POS tagging) 8 2.1.3. Xác định cụm từ (Chunking) ............................................................. 9 2.1.4. Phân tích cú pháp (Parsing) ............................................................. 12 2.2. Các phương pháp biểu diễn từ dưới dạng vector.................................... 13 2.2.1. Biểu diễn túi từ - Bag of words ....................................................... 13 2.2.2 Biểu diễn One-hot-vector ................................................................. 14 2.2.3. Túi từ liên tục - CBOW ................................................................... 18 II
  7. 2.2.4. Skip gram ........................................................................................ 21 2.3. Học sâu - Deep Learning ........................................................................ 25 2.3.1. Mạng nơ ron nhân tạo (ANN) ......................................................... 26 2.3.2. Mạng nơ-ron hồi quy RNN (Recurrent Neural Network) ............... 32 2.3.3. Bộ nhớ dài-ngắn LSTM (Long-short term memory) ...................... 34 2.3.4. Mạng nơ ron ngắn dài song song LSTM (Bidirectional Long-short term memory) ............................................................................................ 39 2.4. Phương pháp học bán giám sát ............................................................... 40 2.5. Học có giám sát ................................................................................. 41 Ví dụ về học giám sát ................................................................................ 42 2.6. Học không giám sát ........................................................................... 43 2.7. Xác định thực thể tên điện thoại di động ................................................ 44 2.7.1. Tổng quan về bài toán Trích chọn thực thể tên điện thoại di động. 44 2.7.2. Hướng tiếp cận nghiên cứu ............................................................. 45 2.7.3. Các nghiên cứu gần đây .................................................................. 45 2.7.4. Đề xuất hướng nghiên cứu .............................................................. 46 CHƯƠNG III MÔ HÌNH ĐỀ XUẤT ....................................................................................................... 48 3.1. Tổng quan mô hình đề xuất .................................................................... 48 3.2. Các đặc trưng của mô hình đề xuất ........................................................ 49 3.2.1. Từ nhúng – Word embeddings ........................................................ 49 3.2.2. Các đặc trưng cú pháp ..................................................................... 51 3.3. Trích chọn tên thực thể điện thoại di động ............................................. 51 3.3.1 Mô hình học sâu trong bài toán trích chọn tên điện thoại di động... 53 3.3.2. Trích chọn tên điện thoại di động ................................................... 56 3.4. Cách đánh giá: ........................................................................................ 56 CHƯƠNG IV ....................................................................................................................... 58 THỰC NGHIỆM ................................................................................................................ 58 4.1. Môi trường thực nghiệm ......................................................................... 58 III
  8. 4.2. Dữ liệu thực nghiệm ............................................................................... 59 4.2.1. Thu thập dữ liệu .............................................................................. 59 4.2.2. Xử lý dữ liệu ................................................................................ 60 4.3. Kết quả Thực nghiệm ............................................................................. 63 4.3.1 Trích xuất đặc trưng ......................................................................... 63 4.3.2 Thực nghiệm giữa phương pháp LSTM và BiLSTM với đặc trưng từ ................................................................................................................ 64 4.3.3 Thực nghiệm BiLSTM với đặc trưng từ và số vòng huấn luyện khác nhau ........................................................................................................... 65 4.3.4 Thực nghiệm phương pháp sử dụng các lớp BiLSTM với đặc trưng từ ................................................................................................................ 65 4.3.5 Thực nghiệm phương pháp BiLSTM với đặc trưng từ và tỉ lệ Dropout khác nhau .................................................................................... 65 4.4. Xây dựng ứng dụng Web trực quan hóa kết quả .................................... 66 4.4.1 Thiết kế Xây dựng Web: .................................................................. 66 CHƯƠNG V ......................................................................................................................... 71 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................................................................. 71 5.1. Kết quả đạt được ..................................................................................... 71 5.2. Hướng phát triển ..................................................................................... 71 TÀI LIỆU THAM KHẢO ............................................................................................... 73 IV
  9. DANH MỤC VIẾT TẮT Từ viết tắt Từ chuẩn Diễn giải BiLSTM Bidirectional long short- Mạng nơ ron bộ nhớ ngắn – dài song term memory song CBOW Continuous Bag of Words Túi từ liên tục CHUNK Chunking Tách câu thành các cụm từ (Cụm danh từ, cụm động từ, …) LSTM Long short-term memory Mạng nơ ron bộ nhớ ngắn – dài MISC Miscellaneous Tên riêng khác không thuộc Org ML Machine learning Học máy Nhận diện thực thể được đặt tên hay NER Named Entity Recognition nhận diện tên riêng Natural Languague NLP Xử lý ngôn ngữ tự nhiên Processing ORG Organization Tên điện thoại di động chỉ tổ chức POS Part-of-Speech Từ loại (N, A, R, …) RNN Recurrent Neural Network Mạng nơ ron hồi quy Vietnamese Named Entity ViNER Nhận diện tên riêng tiếng Việt Recognition ANN Artificial Neural Network Mạng nơ ron nhân tạo V
  10. DANH MỤC CÁC BẢNG Bảng 2. 1. Minh họa ví dụ tách từ .......................................................................... 8 Bảng 2. 2. Nhãn cụm từ cho hệ phân cụm từ Việt ............................................... 11 Bảng 2. 3. Biểu diễn từ thành ma trận vector 50 chiều ........................................ 13 Bảng 3. 1. Các đặc trưng được sinh tự động ........................................................ 51 Bảng 3. 2. Một đặc trưng vector đầu vào cho mô hình ........................................ 55 Bảng 4. 1: cấu hình máy PC dùng trong thực nghiệm ......................................... 58 Bảng 4. 2: Các công cụ sử dụng trong thực nghiệm ............................................ 58 Bảng 4. 3. Thống kê chi tiết dữ liệu ..................................................................... 62 Bảng 4. 4. Tham số của mô hình huấn luyện ....................................................... 64 Bảng 4. 5. Độ chính xác của hệ thống khi sử dụng các phương pháp học sâu .... 64 Bảng 4. 6. Độ chính xác hệ thống huấn luyện với các Epoch khác nhau ............ 65 Bảng 4. 7. Kết quả so sánh giữa các lớp .............................................................. 65 Bảng 4. 8. Kết quả của các Dropout khác nhau ................................................... 65 Bảng 4. 9. Kết quả so sánh giữa các đặc trưng .................................................... 66 Bảng 4. 10. Các tham số và đặc trưng tối ưu cho mô hình huấn luyện_đánh giá 66 VI
  11. DANH MỤC HÌNH VẼ, ĐỒ THỊ Hình 2. 1. Mô hình xử lý ngôn ngữ tự nhiên ......................................................... 5 Hình 2. 2. Trích xuất (trích chọn) các thực thể trong văn bản ............................... 7 Hình 2. 3. Mô hình hoạt động của bộ phân cụm từ Việt ...................................... 10 Hình 2. 4. Mô hình Word2vector ......................................................................... 18 Hình 2. 5. Mô hình Continuous Bag of Words .................................................... 20 Hình 2. 6. Mô hình CBOW chi tiết ...................................................................... 21 Hình 2. 7. Mô hình Skip gram trong Word2vec .................................................. 22 Hình 2. 8. Mô hình mạng nơ ron 1 lớp ẩn của Word2vec ................................... 23 Hình 2. 9. Ma trận trọng số của lớp ẩn của mô hình Word2vec .......................... 23 Hình 2. 10. Lớp ẩn của mô hình hoạt động như một bảng tra cứu...................... 24 Hình 2. 11. Mối tương quan giữa từ “ants” và từ “car” ....................................... 24 Hình 2. 12. Lược sử học sâu Deep Learning ....................................................... 26 Hình 2. 13. Một nơ ron sinh học ......................................................................... 27 Hình 2. 14. Một perceptron .................................................................................. 27 Hình 2. 15. Mô hình nơ ron .................................................................................. 28 Hình 2. 16. Mô hình mạng nơ ron ANN .............................................................. 29 Hình 2. 17. xây dựng mô hình neural network .................................................... 30 Hình 2. 18. xây dựng mô hình neural network ................................................... 32 Hình 2. 19. Quá trình xử lý thông tin trong mạng RNN ...................................... 33 Hình 2. 20. RNN phụ thuộc short-term ................................................................ 34 Hình 2. 21. RNN phụ thuộc long-term................................................................. 34 Hình 2. 22. Các mô-đun lặp của mạng RNN chứa một layer .............................. 35 Hình 2. 23. Các mô-đun lặp của mạng LSTM chứa bốn layer ............................ 36 VII
  12. Hình 2. 24. Các kí hiệu sử dụng trong mạng LSTM ............................................ 36 Hình 2. 25. Tế bào trạng thái LSTM giống như một băng truyền ....................... 37 Hình 2. 26. Cổng trạng thái LSTM ...................................................................... 37 Hình 2. 27. LSTM focus f .................................................................................... 38 Hình 2. 28. LSTM focus i .................................................................................... 38 Hình 2. 29. LSTM focus c .................................................................................... 39 Hình 2. 30. Mô hình Bidirectional LSTM sử dụng 2 mạng nơ-ron LSTM ......... 40 Hình 2. 31. Mạng Bi-LSTM cho NER ................................................................. 40 Hình 2. 32. Mô hình học có giám sát ................................................................... 41 Hình 2. 33. Thuật toán học có giám sát ............................................................... 42 Hình 3. 1. Mô hình đề xuất cơ bản cho trích chọn tên sản phẩm (điện thoại di động) .............................................................................................................................. 49 Hình 3. 2. Mô hình xây dựng vector Word embedding ....................................... 50 Hình 3. 3. Hệ thống trích chọn tên điện thoại di động chi tiết ViNER ................ 54 Hình 3. 4. Mô hình học sâu 2 lớp BiLSTM cho hệ thống ViNER ...................... 55 Hình 3. 5. Precision và Recall .............................................................................. 57 Hình 4. 1. Mô hình của pha tiền xử lí .................................................................. 60 Hình 4. 2. Sơ đồ thiết kế ứng dụng Web ............................................................. 67 Hình 4. 3. Giao diện chính của trang web ............................................................ 67 Hình 4. 4. Giao diện phân tích dữ liệu ................................................................. 68 Hình 4. 5. Giao diện phân tích kết quả................................................................. 68 Hình 4. 6. Các đặc trưng được tạo tự động bởi công cụ Underthesea ................. 69 Hình 4. 7. So sánh nhãn tên điện thoại di độngcủa ViNER và Underthesea ....... 70 Hình 4. 8. Giao diện Demo thực tế ...................................................................... 70 VIII
  13. CHƯƠNG I GIỚI THIỆU CHUNG Trong chương này, chúng tôi sẽ giới thiệu tổng quan về các vấn đề được nghiên cứu của đề tài, đồng thời xác định mục tiêu, phạm vi nghiên cứu cũng như những ý nghĩa mà kết quả của đề tài này mang lại cả về ý nghĩa khoa học và áp dụng thực tiễn. 1.1. Lí do thực hiện đề tài Dữ liệu lớn (Big data), trí tuệ nhân tạo (AI) và internet vạn vật (IOT) là ba nhân tố quan trọng trong cuộc cách mạng công nghiệp 4.0 đang bùng nổ và phát triển mạnh mẽ trên toàn thế giới. Thành phần cốt lõi của ba nhân tố trên chính là các phương pháp học máy (machine learning - ML) và xử lí ngôn ngữ tự nhiên (nhiên Natural Language Processing - NLP) trong số những bài toán về Trí tuệ nhân tạo. Những ứng dụng trên có chức năng xử lý tiêu biểu như trích xuất thông tin, tóm tắt văn bản, máy tìm kiếm, dịch máy. Trong đó việc trích chọn ra tên điện thoại di động, tên nhà sản xuất, tên địa danh, tên người nổi tiếng và nhiều tên khác trong các văn bản mang lại nhiều ý nghĩa quan trọng cho các bài toán NLP - Natural Language Processing. Hiện nay trên thế giới, có rất nhiều hệ thống trích chọn tên nhưng chủ yếu phục vụ cho văn bản tiếng Anh, tiếng Trung, tiếng Nhật. Trích chọn thực thể là bài toán cơ bản nhất trong các bài toán trích chọn thông tin và đóng vai trò khá quan trọng. Thực thể tên ngày càng được ứng dụng trong nhiều bài toán trong khai phá dữ liệu web cũng như nhiều các bài toán trong xử lý ngôn ngữ tự nhiên. Do đó việc xây dựng các giải thuật trích chọn các thực thể tên này từ web là bài toán có ý nghĩa quan trọng. Ở Việt Nam, số lượng các loại điện thoại mới ra đời được bán ngày càng nhiều, người tiêu dùng đang bắt đầu có xu hướng thay thế những chiếc điện thoại đã cũ của mình. Nhiều người thậm chí còn mua những chiếc điện thoại thứ hai, thứ ba cho cá nhân. Tuy nhiên thông tin trên mạng internet có rất nhiều tin quảng cáo về sản phẩm điện thoại nên người dùng sẽ bị nhiễu loạn thông tin và không thể chọn lựa được những thông tin mình mong muốn. Điều này đòi hỏi mỗi khi muốn 1
  14. mua một cái điện thoại mới người dùng phải cập nhật thông tin chính xác liên quan đến các loại điện thoại mới để đưa ra các quyết định phù hợp. Tuy nhiên các thông tin trên mạng rất nhiều và chưa có sự phân loại, dẫn đến người dùng gặp phải khó khăn trong việc lấy ra các thông tin cần thiết cho nhu cầu sử dụng. Một trong những nhu cầu đó, chính xác là xác định được tên điện thoại. Một ứng dụng khác của việc trích chọn tên điện thoại di động là tìm thêm các thông số kỹ thuật liên quan đến từng loại điện thoại để so sánh, đánh giá sản phẩm giữa các nhà sản xuất hoặc có thể ứng dụng vào bài toán khai phá quan điểm. Từ những nhu cầu bức thiết trên chúng tôi mạnh dạn chọn đề tài “Phương pháp học bán giám sát cho bài toán trích chọn thông tin và ứng dụng trích chọn thực thể tên điện thoại di động” làm luận văn nghiên cứu. 1.2. Mục tiêu nghiên cứu Để quá trình nghiên cứu luận văn đạt được những kết quả tốt chúng tôi cần thực hiện các công việc sau: Thu thập dữ liệu từ các website, các trang báo, các trang quảng cáo trên mạng internet của các hãng điện thoại di động trong và ngoài nước. Xây dựng một hệ thống trích chọn tên điện thoại di động sử dụng phương pháp học sâu mạng nơ ron ngắn, dài, song song BiLSTM của kiến trúc học sâu Deep learning với sự hỗ trợ của ma trận Pretrain Word Embedding tiếng Việt và các công cụ trích xuất đặc trưng. Ngoài ra, chúng tôi còn xây dựng một ứng dụng Web để trực quan hóa việc phân tích dữ liệu, phân tích kết quả và trích chọn tên điện thoại di động nhập vào từ trang web. 1.3. Đối tượng, phạm vi nghiên cứu Đối tượng nghiên cứu: khảo sát trên bộ dữ liệu thông tin về điện thoại di động có nhiều tham số khác nhau dựa trên nền tảng học sâu Deep Neural Networks để tìm ra mô hình học sâu với tham số tối ưu cho hệ thống trích chọn tên điện thoại di động. 2
  15. Phạm vi nghiên cứu: xây dựng mô hình trích chọn được các tên điện thoại di động từ các văn bản tiếng Việt nhập vào từ giao diện Web. Mô hình được huấn luyện từ nguồn dữ liệu thu thập trên một số trang báo thương mại điện tử như: thegioididong.com, cellphone.com, Viettelstore.vn, Vnreview.vn. Trong bộ dữ liệu này, hệ thống chỉ trích chọn 2 loại thực thể hay còn gọi là tên điện thoại di động (gồm tên điện thoại di động, model sản xuất). 1.4. Phương pháp nghiên cứu Vận dụng kiến thức đã học, các bài báo nghiên cứu khoa học và các nghiên cứu trước đây của các tác giả, cùng với sự hướng dẫn của giảng viên để thu thập, lựa chọn nguồn dữ liệu, chọn mô hình đề xuất phù hợp. Phương pháp nghiên cứu lý thuyết: Dựa trên các môn học như Big data, học máy, khai phá dữ liệu, lập trình hướng đối tượng và phân tích hệ thống thông tin… Phương pháp tổng hợp, phân tích: trên nền tảng tổng hợp kết quả đã có được ta phân tính từng thành phần nhỏ của kết quả đó. Phương pháp học sâu mạng nơ ron ngắn dài song song BiLSTM: Có nghĩa là LSTM hai chiều, là tín hiệu truyền ngược cũng như chuyển tiếp theo thời gian và nó được sử dụng trong các trường hợp vấn đề học tập tuần tự. 1.5. Ý nghĩa khoa học và ý nghĩa thực tiễn của đề tài 1.5.1. Ý nghĩa khoa học Luân văn đã tìm ra phương pháp học sâu trích chọn tên thực thể trong văn bản tiếng việt kết hợp từ “nhúng” phù hợp, hiệu quả cho bài toán trích chọn thực thể tên điện thoại di động, luận văn này cũng sẽ làm tài liệu tham khảo và nghiên cứu cho các hướng phát triển tiếp theo sau này. Luận văn cũng đánh giá được hiệu suất của phương pháp bằng cách thực nghiệm hệ thống trên các khía cạnh khác nhau dựa trên bộ dữ liệu cho sẵn. Đã xây dựng được một ứng dụng web để trực quan hóa các nhu cầu người dùng khi người dùng nhập văn bản cần nhận dạng các tên thực thể và phân tích trực quan các dữ liệu dựa trên các biểu đồ so sánh và kết quả. 3
  16. 1.5.2. Ý nghĩa thực tiễn Luận văn tìm ra phương pháp học sâu để trích chọn thực thể tên là bài toán cơ bản nhất trong các bài toán trích chọn thông tin nó đóng vai trò quan trọng. Thực thể tên ngày càng được ứng dụng trong nhiều trong bài toán trong xử lý ngôn ngữ tự nhiên cũng như khai phá dữ liệu web. Vì vậy việc trích chọn các thực thể tên này từ web là bài toán có ý nghĩa quan trọng. Luận văn dựa vào phương pháp học sâu, xây dựng một mô hình trích chọn thực thể tên điện thoại di động giúp cho người sử dụng tìm được thông tin về sản phẩm điện thoại một cách chính xác và xây dựng ứng dụng web để trích chọn thực thể tên điện thoại di động. 1.6. Bố cục luận văn Luận văn được chia thành 5 phần với các nội dung như sau:  Chương 1 – Giới thiệu chung Trình bày lý do chọn đề tài, mục tiêu, đối tượng - phạm vi và phương pháp nghiên cứu, ý nghĩa của đề tài.  Chương 2 – Cơ sở lý thuyết Giới thiệu tổng quan về xử lí ngôn ngữ tự nhiên, các phương pháp, công cụ để tách từ, gán nhãn từ loại, gán nhãn cụm từ, phân tích cú pháp; Giới thiệu về các cách biểu diễn từ thành vector, mạng nơ ron nhân tạo, kỹ thuật lan truyền ngược; Phương pháp học sâu để sử dụng cho bài toán, Trình bày tổng quan hệ thống trích chọn tên điện thoại di động, hướng tiếp cận và các nghiên cứu liên quan; Đề xuất hướng nghiên cứu.  Chương 3 – Mô hình đề xuất Trình bày tổng quan mô hình đề xuất, các đặc trưng trong mô hình; Chi tiết hệ thống trích chọn thực thể tên điện thoại di động.  Chương 4 – Thực nghiệm Giới thiệu bộ dữ liệu, quá trình xử lí dữ liệu, phương pháp đánh giá, phần thực nghiệm và đánh giá thực nghiệm theo các khía cạnh khác nhau để chọn mô hình tối ưu cho hệ thống trích chọn thực thể tên điện thoại di động.  Chương 5 – Kết luận và hướng phát triển 4
  17. CHƯƠNG II CƠ SỞ LÝ THUYẾT Trong chương này, chúng tôi sẽ giới thiệu tổng quan về cách xử lý ngôn ngữ tự nhiên như tách từ (Tokenizer), cách xác định loại từ, cụm từ và phân tích cú pháp trong câu. Đồng thời giới thiệu các phương pháp biểu diễn và xác định được phương pháp học sâu được sử dụng trong luận văn để xác định thực thể tên điện thoại di động và đề xuất hướng nghiên cứu sau này. 2.1. Xử lý ngôn ngữ tự nhiên Trong thời đại hiện nay, cuộc cách mạng công nghiệp 4.0, việc xử lý các ngôn ngữ tự nhiên đang được nghiên cứu và phát triển mạnh mẽ. Xử lý ngôn ngữ tự nhiên có tên tiếng Anh là: Natural Language Processing. Đây là các kĩ thuật, phương pháp nhằm hỗ trợ cho các hệ thống máy tính hiểu, xử lý, nhận dạng ngôn ngữ tự nhiên như: tiếng Việt, tiếng Anh. Có rất nhiều nghiên cứu về NLP nhưng có thể phân thành các nhánh nghiên cứu như: Phân tích cảm xúc (Sentiment), phân loại tài liệu (Classification), dịch máy (Translation), tóm tắt văn bản (Topic Modelling), trích xuất thông tin (Information Extraction), … Các trợ lý thông minh như Siri của Apple, alexa của Amazon và ok google của Google bắt đầu xác định các mẫu trong giọng nói, nhận dạng giọng nói, suy ra ý nghĩa và đưa ra phản hồi. Hình 2. 1. Mô hình xử lý ngôn ngữ tự nhiên1 1 https://ichi.pro/vi/xu-ly-ngon-ngu-tu-nhien-bang-python-nltk-101258229749293 5
  18. Trích xuất thông tin bài toán lấy ra những thành phần thông tin cụ thể của một văn bản, những thành phần này chính là hạt nhân tạo nên nội dung ngữ nghĩa của văn bản đó. Có nhiều mức độ trích chọn thông tin từ văn bản như xác định các thực thể (Element Extraction), xác định quan hệ giữa các thực thể (Relation Extraction), xác định và theo dõi các sự kiện và các kịch bản (Event and Scenario Extraction and Tracking), xác định đồng tham chiếu (Co-reference Resolution) ... Các kĩ thuật được sử dụng trong trích chọn thông tin gồm có: phân đoạn, phân lớp, kết hợp và phân cụm.16 Từ đây sẽ có nhiều ứng dụng cho nhiều domain như Text and Web mining (rút trích tên người nổi tiếng, sản phẩm đang hot, so sánh giá sản phẩm, nghiên cứu đối thủ cạnh tranh, phân tích tâm lý khách hàng), Biomedical, Business intelligent, Financial professional (đánh giá thị trường từ các nguồn khác nhau: giá xăng dầu tăng giảm, thông tin chiến tranh - chính trị giữa các nước, điều luật mới trong thị trường kinh doanh), Terrism event (sử dụng vũ khí gì, đối tượng tấn công là ai). Sau các bước tiền xử lý thiên về từ vựng và cú pháp như tách câu, tách từ, phân tích cú pháp, gán nhãn từ loại. Từ IE ta sẽ đơn giản hóa thành các bài toán con gồm: Rút trích tên thực thể (Named entity recognition – NER: people, organization, location), phân giải đồng tham chiếu (Coreference resolution) và rút trích quan hệ giữa hai thực thể (Relation extraction). Bài toán nhận dạng ra các thực thể có tên trong văn bản là một nhiệm vụ cốt lõi trong trích xuất thông tin. 6
  19. Hình 2. 2. Trích xuất (trích chọn) các thực thể trong văn bản2 2.1.1. Tách từ (ViTokenizer) Để có thể trích chọn được các thực thể tên điện thoại di động trong các văn bản dữ liệu ban đầu cần phải qua bước tiền xử lý để tách câu, phân đoạn từ (tách từ), chuẩn bị dữ liệu đầu vào cho bước tiếp theo. Từ là một đơn vị nhỏ nhất có nghĩa độc lập, có thể giữ một chức năng ngữ pháp nhất định và có thể quy về một từ loại nhất định, có khả năng tách biệt khỏi những từ bên cạnh để có thể phân biệt được với những bộ phận tạo thành từ. Tính hoàn chỉnh trong nội bộ của từ là cần thiết cho nó, với tư cách một từ riêng biệt, phân biệt với cụm từ. Tính hoàn chỉnh và tính tách biệt về ý nghĩa là bắt buộc với mỗi từ. Từ được cấu tạo nhờ các từ tố (hình vị), một từ có thể có một, hai hoặc nhiều âm tiết tạo nên, nên có rất nhiều cách phân chia các âm tiết thành các từ, gây ra nhập nhằng. Việc phân giải nhập nhằng này gọi là bài toán tách từ. Nói cách khác, từ được tạo ra nhờ một hoặc một số hình vị kết hợp với nhau theo những nguyên tắc nhất định. Từ tố (hình vị) là đơn vị nhỏ nhất có ý nghĩa của ngôn ngữ. Tách từ là gom nhóm các từ đơn liền kề thành một cụm từ có ý nghĩa, các từ đơn được gom nhóm với nhau bằng cách nối với nhau bằng ký tự gạch dưới ("_"). Sau khi thực hiện tách từ thì mỗi từ (token) trong câu được cách nhau bởi một khoảng trắng. Đây là quy ước chung cho tất cả các ngôn ngữ của bài toán tách từ trong xử lý ngôn ngữ tự nhiên. Mục tiêu của việc tách từ văn bản đầu vào là để khử tính nhập nhằng về ngữ nghĩa của văn bản. Với ngôn ngữ tiếng Anh, việc tách từ khá đơn giản vì ranh giới từ được trích chọn bằng khoảng trắng và dấu câu. Với ngôn ngữ tiếng việt, ranh giới từ không được xác định mặc nhiên bằng khoảng trắng. Tiếng việt có đặc điểm là ý nghĩa ngữ pháp nằm ở ngoài từ, phương thức ngữ pháp chủ yếu là trật tự từ và từ hư. Cho nên có trường hợp một câu có thể có nhiều ngữ nghĩa khác nhau tuỳ vào cách tách từ như thế nào, gây nhập nhằng về ngữ nghĩa của câu. Ví dụ về tách từ trong tiếng anh và tiếng việt: 2 https://ongxuanhong.wordpress.com/2016/02/05/cac-thuat-ngu-trong-xu-ly-ngon-ngu-tu-nhien/named- entity-recognition/ 7
  20. Dữ liệu tiếng Anh Dữ liệu tiếng Việt Văn bản đầu vào Oppo Find X3 Neo Điện thoại Oppo Find X3 phone is a new breeze in the Neo là một làn gió mới trong high-end phone segment, phân khúc điện thoại cận cao when copying almost every cấp, khi sao chép gần như high-end technology from the mọi công nghệ cao cấp từ elder Oppo Find X3 Pro but đàn anh Oppo Find X3 Pro at a more affordable price for nhưng với mức giá phải users. chăng hơn cho người dùng.3 Văn bản sau khi Oppo Find X3 Neo phone is Điện thoại Find_X3_Neo, tách từ a new breeze in the high-end là một làn gió mới trong phone segment, when copying phân khúc điện thoại cận almost every high-end cao cấp, khi sao chép gần technology from the elder như mọi công nghệ cao cấp Oppo Find X3 Pro but at a từ đàn anh more affordable price for Oppo_Find_X3_Pro nhưng users. với mức giá phải chăng hơn cho người dùng. Bảng 2. 1. Minh họa ví dụ tách từ 2.1.2. Xác định loại từ trong câu (Part-of-Speech tagging - POS tagging) Công việc gán nhãn từ cũng được gọi là gắn thẻ ngữ pháp, cho một văn bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó. Tức là phân loại các từ thành các lớp từ loại dựa trên thực tiễn hoạt động ngôn ngữ trong đó. Mỗi từ trong một ngôn ngữ nói chung có thể gắn với nhiều từ loại. Mỗi từ loại tương ứng với một hình thái và một vai trò ngữ pháp nhất định. Gán nhãn từ loại là một trong những bước quan trọng và cơ bản trong xử lý và khai phá dữ liệu trước khi phân tích văn phạm, ngữ nghĩa sâu hơn hay các vấn đề xử lý ngôn ngữ phức tạp khác. Nó xác định các chức năng ngữ pháp của từ trong câu. Khi văn bản đã được gán nhãn thì nó sẽ được ứng dụng trong các hệ thống tìm kiếm thông tin, gán nhãn tên thực thể, trong các hệ thống nhận dạng tiếng nói cũng như trong các hệ thống dịch máy. Gán nhãn từ loại là bài toán nhận được quan tâm sớm nhất trong chuyên ngành xử lý ngôn ngữ tự nhiên và được nghiên cứu nhiều cũng như có nhiều phương pháp giải quyết. 3 https://cellphones.com.vn/oppo-find-x3-neo.html 8
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2