intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Đề tài nghiên cứu khoa học: Xây dựng phần mềm phân tích tự động ý kiến phản hồi của sinh viên về chất lượng đào tạo ở Phân hiệu trường Đại học Nội vụ Hà Nội tại Thành phố Hồ Chí Minh

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:79

26
lượt xem
8
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu nghiên cứu của đề tài "Xây dựng phần mềm phân tích tự động ý kiến phản hồi của sinh viên về chất lượng đào tạo ở Phân hiệu trường Đại học Nội vụ Hà Nội tại Thành phố Hồ Chí Minh" nhằm nghiên cứu các phương pháp máy học, học sâu để giải quyết bài toán Phân tích tự động ý kiến phản hồi của sinh viên; Xây dựng bản demo phần mềm phân tích tự động ý kiến phản hồi của sinh viên về chất lượng đào tạo tại Phân hiệu TP.HCM.

Chủ đề:
Lưu

Nội dung Text: Đề tài nghiên cứu khoa học: Xây dựng phần mềm phân tích tự động ý kiến phản hồi của sinh viên về chất lượng đào tạo ở Phân hiệu trường Đại học Nội vụ Hà Nội tại Thành phố Hồ Chí Minh

  1. BỘ NỘI VỤ TRƢỜNG ĐẠI HỌC NỘI VỤ HÀ NỘI BÁO CÁO TỔNG HỢP ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƢỜNG XÂY DỰNG PHẦN MỀM PHÂN TÍCH TỰ ĐỘNG Ý KIẾN PHẢN HỒI CỦA SINH VIÊN VỀ CHẤT LƢỢNG ĐÀO TẠO Ở PHÂN HIỆU TRƢỜNG ĐẠI HỌC NỘI VỤ HÀ NỘI TẠI THÀNH PHỐ HỒ CHÍ MINH Mã số của đề tài: ĐTCT.2022.133 Chủ nhiệm đề tài: Thạc sỹ Tôn Nữ Thị Sáu Hà Nội, Tháng 7/2022
  2. BỘ NỘI VỤ TRƢỜNG ĐẠI HỌC NỘI VỤ HÀ NỘI BÁO CÁO TỔNG HỢP ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƢỜNG XÂY DỰNG PHẦN MỀM PHÂN TÍCH TỰ ĐỘNG Ý KIẾN PHẢN HỒI CỦA SINH VIÊN VỀ CHẤT LƢỢNG ĐÀO TẠO Ở PHÂN HIỆU TRƢỜNG ĐẠI HỌC NỘI VỤ HÀ NỘI TẠI THÀNH PHỐ HỒ CHÍ MINH Mã số của đề tài: ĐTCT.2022.133 Chủ nhiệm đề tài: Thạc sỹ Tôn Nữ Thị Sáu Thành viên đề tài: Thạc sỹ Đỗ Phƣớc Sang Thạc sỹ Phạm Thị Thu Trang Thạc sỹ Lê Xuân Hậu Cử nhân Nguyễn Thị Kim Oanh Hà Nội, Tháng 7/2022
  3. MỤC LỤC MỤC LỤC ............................................................................................................. 1 DANH MỤC BẢNG VIẾT TẮT .......................................................................... 3 DANH MỤC BẢNG BIỂU .................................................................................. 4 DANH MỤC HÌNH VẼ ........................................................................................ 5 MỞ ĐẦU ............................................................................................................... 7 1. Tính cấp thiết ..................................................................................................... 7 2. Mục tiêu của đề tài ............................................................................................ 8 3. Nhiệm vụ đề tài: ................................................................................................ 8 4. Đối tƣợng, phạm vi nghiên cứu......................................................................... 9 5. Phƣơng pháp nghiên cứu ................................................................................... 9 6. Ý nghĩa khoa học và ý nghĩa thực tiển.............................................................. 9 7. Kết quả đề tài................................................................................................... 10 8. Cấu trúc của đề tài ........................................................................................... 11 Chƣơng 1: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN ....... 12 1.1 Các khái niệm cơ bản .................................................................................... 12 1.1.1. Xử lý ngôn ngữ tự nhiên ........................................................................... 12 1.1.2. Bài toán Phân tích ý kiến .......................................................................... 13 1.1.3. Bài toán phân tích ý kiến theo khía cạnh .................................................. 14 1.1.4. Máy học. .................................................................................................... 16 1.2. Một số mô hình máy học và học sâu ............................................................ 17 1.2.1. Mô hình máy học Support Vector Machine .............................................. 17 1.2.2. Mô hình mạng học sâu tích chập – Convolutional Neural Network ........ 20 1.2.3. Mô hình ngôn ngữ BERT .......................................................................... 26 1.3. Phƣơng pháp biểu diễn từ ............................................................................ 32 1.4. Các công trình nghiên cứu trong và ngoài nƣớc .......................................... 34 Chƣơng 2: XÂY DỰNG DỮ LIỆU DỰA TRÊN Ý KIẾN PHẢN HỒI CỦA SINH VIÊN ......................................................................................................... 37 2.1. Giới thiệu ...................................................................................................... 37 2.2. Gán nhãn dữ liệu .......................................................................................... 38 2.2.1. Mục tiêu của việc gán nhãn ....................................................................... 38 2.2.2. Quy trình gán nhãn .................................................................................... 39 2.3. Tài liệu hƣớng dẫn các nguyên tắc gán nhãn dữ liệu ................................... 40 1
  4. 2.3.1. Quy tắc gán nhãn khía cạnh: ..................................................................... 40 2.3.2. Quy tắc gán nhãn bài toán trạng thái cảm xúc .......................................... 44 2.4. Huấn luyện ngƣời gán nhãn ......................................................................... 45 2.5. Thống kê dữ liệu và đánh giá dữ liệu. .......................................................... 47 Chƣơng 3: KẾT QUẢ THỬ NGHIỆM TRÊN CÁC MÔ HÌNH MÁY HỌC VÀ PHẦN MỀM PHÂN TÍCH TỰ ĐỘNG Ý KIẾN PHẢN HỒI CỦA SINH VIÊN VỀ CHẤT LƢỢNG ĐÀO TẠO THEO KHÍA CẠNH ...................................... 49 3.1. Mô hình máy học.......................................................................................... 49 3.2. Mô hình học sâu ........................................................................................... 50 3.3. Mô hình ngôn ngữ BERT ............................................................................. 52 3.4. Các mô hình so sánh..................................................................................... 54 3.5. Chi tiết cài đặt mô hình ................................................................................ 55 3.6. Kết quả thử nghiệm ...................................................................................... 56 3.6.1. Độ đo đánh giá .......................................................................................... 56 3.6.2. Kết quả thử nghiệm ................................................................................... 57 3.7. Phần mềm phân tích tự động ý kiến phản hồi của sinh viên về chất lƣợng đào tạo theo khía cạnh ......................................................................................... 61 3.7.1. Ngôn ngữ lập trình .................................................................................... 61 3.7.2. Mô tả ứng dụng ......................................................................................... 63 3.7.3. Chi tiết từng chức năng ............................................................................. 64 3.7.3.1. Chức năng Đăng ký tài khoản ................................................................ 65 3.7.3.2. Chức năng Đăng nhập tài khoản ............................................................ 65 3.7.3.4. Chức năng Phân tích ý kiến theo giảng viên .......................................... 66 3.7.3.5. Chức năng Phân tích ý kiến theo học phần ............................................ 69 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN .......................................................... 73 1. Kết luận ........................................................................................................... 73 2. Hƣớng phát triển ............................................................................................. 73 3. Kiến nghị ......................................................................................................... 74 3.1. Triển khai phần mềm vào thực tế ................................................................. 74 3.2. Phát triển phần mềm trong tƣơng lai............................................................ 74 TÀI LIỆU THAM KHẢO ................................................................................... 75 2
  5. DANH MỤC BẢNG VIẾT TẮT TT Chữ viết tắt Giải thích 1 Phân hiệu Phân hiệu Trƣờng đại học Nội vụ Hà Nội tại TP.HCM TP.HCM 2 NB Naive Bayes 3 NN Neural Network 4 SVM Support Vector Machine 5 LSTM Long Short-Term Memory 6 CNN Convolutional neural network 7 BiLSTM-CNN Bidirectional Long Short-Term Memory-Convolutional Neural Network 8 BERT Bidirectional Encoder Representations from Transformers 9 ANN Artificial Neural Networks 10 Tf-idf Term Frequency – Inverse Document Frequency 3
  6. DANH MỤC BẢNG BIỂU Bảng 2.1. Danh sách thống kê số lƣợng các khía cạnh trong bộ dữ liệu ............ 47 Bảng 3.1. Kết quả thực nghiệm các phƣơng pháp cho bài toán phát hiện khía cạnh trên tập kiểm tra .......................................................................................... 58 Bảng 3. 2. Kết quả thí nghiệm các phƣơng pháp cho bài toán phát hiện khía cạnh và trạng thái cảm xúc tƣơng ứng trên tập kiểm tra ............................................. 59 4
  7. DANH MỤC HÌNH VẼ Hình 1. 1. Phần mềm Awario phân tích cảm xúc khách hàng ............................ 16 Hình 1. 2. Lịch sử phát triển của máy học .......................................................... 17 Hình 1. 3. Các mặt phẳng phân tách hai lớp ....................................................... 18 Hình 1. 4. Margin phân chia hai lớp .................................................................. 19 Hình 1.5. Kiến trúc mạng nơ-ron nhân tạo ......................................................... 20 Hình 1. 6. Cấu trúc trong từng nốt của mạng nơ-ron nhân tạo ........................... 21 Hình 1.7. Mô tả quá trình tính toán tại tầng tích chập, sử dụng hàm kích hoạt ReLu .................................................................................................................... 22 Hình 1.8. Kết quả sau khi đi qua lớp tổng hợp ................................................... 23 Hình 1. 9. Đồ thị hàm sigmoid ............................................................................ 24 Hình 1. 10. Đồ thị hàm ReLu .............................................................................. 25 Hình 1. 11. Đồ thị hàm Tanh............................................................................... 26 Hình 1. 12 . Mô tả quá trình sử dụng BERT để rút trích vector biểu diễn của văn bản đầu vào.......................................................................................................... 27 Hình 1. 13. Mô hình Transformer đƣợc đề xuất bởi tác giả Vaswani et al. [21].28 Hình 1.14. Mô tả đầu vào của kiến trúc mô hình BERT [2]. .............................. 30 Hình 1.15. Ví dụ biểu diễn 2 câu văn bản đầu vào của mô hình BERT ............. 30 Hình 1.16. Mô tả quá trình Mô hình mặt nạ ngôn ngữ [15]. .............................. 31 Hình 1. 17. Mô tả quá trình Dự đoán câu tiếp theo............................................. 31 Hình 1. 18. Các cách tinh chỉnh khác nhau dựa trên mô hình BERT. ................ 32 Hình 2. 1. Quy trình xây dự bộ dữ liệu ............................................................... 39 Hình 3.1. Mô hình đề xuất trong bài toán phân loại văn bản.............................. 49 Hình 3.2. Kiến trúc mô hình kết hợp BiLSTM-CNN cho bài toán tích ý kiến theo khía cạnh trên miền dữ liệu giáo dục .......................................................... 50 Hình 3. 3. Kiến trúc tinh chỉnh mô hình BERT .................................................. 53 Hình 3. 4. Kết quả chi tiết từng khía cạnh và trạng thái cảm xúc của mô hình kết hợp BiLSTM-CNN trên tập kiểm tra .................................................................. 59 Hình 3.5. Kết quả chi tiết từng khía cạnh và trạng thái cảm xúc của mô hình kết hợp BERT trên tập kiểm tra. ................................................................................ 60 Hình 3.6. Mô hình quan hệ dữ liệu ..................................................................... 62 Hình 3.7 . Sơ đồ luồng dữ liệu ............................................................................ 63 Hình 3.8. Sơ đồ quy trình thực hiện .................................................................... 63 Hình 3.9. Mô hình phân cấp chức năng của phần mềm Vasf Soft ..................... 64 Hình 3.10. Giao diện phần mềm Vasf Soft ......................................................... 64 5
  8. Hình 3.11. Giao diện đăng ký tài khoản ............................................................. 65 Hình 3.12. Chức năng đăng nhập tài khoản ........................................................ 65 Hình 3.13. Chức năng thoát ................................................................................ 66 Hình 3.14. Chức năng phân tích ý kiến theo giảng viên ..................................... 66 Hình 3.15.Tải tập tin dữ liệu để phân tích........................................................... 67 Hình 3.16. Biểu đồ phần trăm khía cạnh đối với giảng viên .............................. 68 Hình 3.17. Bản đồ phần trăm cảm xúc theo khía cạnh đối với giảng viên ......... 68 Hình 3.18. Bảng phân tích cụ thể mỗi ý kiến của sinh viên đối với giảng viên . 69 Hình 3.19. Chức năng phân tích khía cạnh theo học phần ................................. 69 Hình 3.20. Tải tập tin dữ liệu ý kiến phản hồi của sinh viên đối với học phần......... 70 Hình 3.21. Biểu đồ phần trăm cảm xúc trên mỗi khía cạnh đối với học phần ... 71 Hình 3.22. Biểu đồ phần trăm cảm xúc theo mỗi khía cạnh đối với học phần ... 71 Hình 3.23. Bảng phân tích chi tiết ý kiến phản hồi của sinh viên đối với học phần . 72 6
  9. MỞ ĐẦU 1. Tính cấp thiết Để thực hiện chủ trƣơng của của Bộ Giáo dục và Đào tạo nhiều trƣờng đại học và cao đẳng tại Việt Nam đang triển khai thực lấy ý kiến phản hồi của ngƣời học về giảng viên và nhà trƣờng bằng nhiều hình thức khác nhau sau khi kết thúc học phần hoặc kết thúc học kỳ [26]. Cũng nhƣ các trƣờng đại học khác từ năm 2017 đến này Phân hiệu Trƣờng Đại học Nội vụ Hà nội TP.HCM (Phân hiệu) đã tiến hành thực hiện lấy ý kiến phản hồi của sinh viên về chất lƣợng đào tạo bằng cách gửi đƣờng liên kết phiếu khảo sát đến sinh viên sau khi kết thúc học kỳ. Để lấy ý kiến phản hồi của sinh viên một cách chính xác, có độ tin cậy cao trong phiếu khảo sát của Phân hiệu đƣợc thiết kế 2 loại câu hỏi đó là câu hỏi đóng và câu hỏi mở. Đối với ý kiến thu thập đƣợc từ câu hỏi đóng đƣợc Phân hiệu xử lý và phân tích bằng phần mềm Excel, SPSS. Nhƣng đối với dữ liệu thu đƣợc từ câu hỏi mở thƣờng bị bỏ qua, chỉ đọc để biết, không đƣợc phân tích cụ thể. Trong khi đó những ý kiến thu đƣợc từ câu hỏi mở chính là tâm tƣ, nguyện vọng, tình cảm, quan điểm…của sinh viên gửi cho Phân hiệu, việc phân tích nguồn dữ liệu này rất cần thiết giúp cho Phân hiệu hiểu rõ khía cạnh mà sinh viên quan tâm và cảm xúc của sinh viên đối với khía cạnh đó. Các ý kiến phản hồi cho câu hỏi mở thƣờng là văn bản cho nên việc phân tích theo cách thủ công sẽ gặp rất nhiều khó khăn, mất rất nhiều thời gian, kinh phí và nhân lực, cho nên Phân hiệu cần phải có một phần mềm phân tích tự động ý kiến phản hồi của sinh viên về chất lƣợng đào tạo cho nguồn dữ liệu thu thập đƣợc từ các câu hỏi mở. Phần mềm sẽ thay cho con ngƣời thực hiện công việc phân tích ý kiến phản hồi của sinh viên theo các khía cạnh và trạng thái cảm xúc khác nhau. Bằng cách sử dụng phần mềm việc phân tích sẽ trở nên dễ dàng hơn, giảm thời gian phân tích, giảm nguồn nhân lực thực hiện, và điều quan trọng là phần mềm đƣa ra kết quả phân tích chính xác và có độ đồng nhất cao. Từ kết quả phân tích của phần mềm giảng viên, lãnh đạo Phân hiệu thấy đƣợc bức tranh tổng thể về các khía cạnh và cảm xúc của sinh viên đối với khía cạnh đó để từ 7
  10. đó đƣa ra những giải pháp kịp tời nhầm nâng cao chất lƣợng đào tạo tại Phân hiệu. Với sự phát triển của các mô hình máy học và học sâu, việc áp dụng các công nghệ trí tuệ nhân tạo vào giải quyết các vấn đề thực tế đã đƣợc nghiên cứu [7] [13] [16] [18]. Tuy nhiên vấn đề của các mô hình này là chúng ta sẽ phải xây dựng các bộ dữ liệu đã đƣợc gán nhãn và lựa chọn đƣợc mô hình phù hợp với dữ liệu để nâng cao hiệu suất của mô hình. Theo tìm hiểu của nhóm nghiên cứu, hiện nay đã có bộ dữ liệu về ý kiến phản hồi của sinh viên nhƣng chƣa có bộ dữ liệu ý kiến phản hồi của sinh viên theo khía cạnh trong miền dữ liệu giáo dục dành cho tiếng Việt. Đồng thời, tại Phân hiệu hiện nay chƣa có phần mềm phân tích tự động ý kiến phản hồi của sinh viên theo khía cạnh đối với nguồn dữ liệu thu đƣợc từ câu hỏi mở cho nên nhóm nghiên cứu chọn đề tài “Xây dựng phần mềm phân tích tự động ý kiến phản hồi của sinh viên về chất lượng đào tạo ở Phân hiệu trường Đại học Nội vụ Hà Nội tại Thành phố Hồ Chí Minh” để thực hiện. 2. Mục tiêu của đề tài - Xây dựng bộ dữ liệu gồm có 4.000 ý kiến phản hồi sinh viên theo khía cạnh (tiếng Việt). - Nghiên cứu các phƣơng pháp máy học, học sâu để giải quyết bài toán Phân tích tự động ý kiến phản hồi của sinh viên. - Xây dựng bản demo phần mềm phân tích tự động ý kiến phản hồi của sinh viên về chất lƣợng đào tạo tại Phân hiệu TP.HCM. 3. Nhiệm vụ đề tài: Nhiệm vụ của đề tài này bao gồm các nội dung nhƣ sau: + Nghiên cứu, khảo sát các công trình liên quan đến bài toán Phân tích tự động ý kiến trong nƣớc và trên thế giới. + Thu thập và gán nhãn một tập dữ liệu ý kiến phản hồi của sinh viên với kích thƣớc ít nhất 4000 câu ý kiến phản hồi. 8
  11. + Thử nghiệm, đánh giá kết quả thử nghiệm của các phƣơng pháp máy học, học sâu trên bộ dữ liệu đã xây dựng. + Tìm hiểu các ngôn ngữ lập trình, cơ sở dữ liệu để xây dựng bản demo phần mềm Phân tích tự động ý kiến phản hồi của sinh viên về chất lƣợng đào tạo tại Phân hiệu TP.HCM. 4. Đối tƣợng, phạm vi nghiên cứu - Đối tƣợng nghiên cứu: Các ý kiến phản hồi của sinh viên đƣợc thu thập tại Phân hiệu TP.HCM và các nguồn khác, các mô hình máy học. - Phạm vi nghiên cứu: + Đề tài nghiên cứu xây dựng dữ liệu tiếng Việt cho bài toán phân tích ý kiến theo khía cạnh với hai bài toán con trong đó là: Phát hiện loại khía cạnh, Phát hiện cảm xúc cho loại khía cạnh. + Phần mềm phân tích tự động các ý kiến phản hồi cho câu hỏi mở trong cuộc khảo sát về chất lƣợng đào tạo. 5. Phƣơng pháp nghiên cứu - Phƣơng pháp phân tích các tài liệu thứ cấp: Đề tài tập hợp các bài báo, các công trình nghiên cứu của các tác giả đi trƣớc cả trong và ngoài nƣớc có liên quan đến chủ đề nghiên cứu, trong đó đặc biệt là chú trọng đến các nghiên cứu liên quan đến bài toán phân tích ý kiến theo khía cạnh. - Phƣơng pháp thực nghiệm: Sử dụng phƣơng pháp thực nghiệm để xây dựng bộ dữ liệu, thực nghiệm bộ dữ liệu với các mô hình máy học và học sâu. Thực nghiệm xây dựng phần mềm phân tích tự động ý kiến phản hồi của sinh viên. 6. Ý nghĩa khoa học và ý nghĩa thực tiển Chúng ta có thể thấy rằng vấn đề phân tích các ý kiến phản hồi của sinh viên rất quan trọng giúp các nhà quản lý, giảng viên nhìn thấy một cách tổng quan những vấn đề mà sinh viên phản hồi để cải thiện môi trƣờng học tập phù hợp với mong muốn của sinh viên và xu thế phát triển của thế giới. Mặc khác, 9
  12. xây dựng các hệ thống phân tích tự động sẽ giúp các nhà quản lý tiết kiệm chi phí, thời gian hơn là việc thuê ngƣời làm thủ công mà vẫn không hiệu quả. - Xây dựng bộ dữ liệu chuẩn trong miền giáo dục phục vụ cho việc nghiên cứu các phƣơng pháp cho bài toán xác định khía cạnh trên Tiếng Việt. - Đánh giá các phƣơng pháp máy học khác nhau bằng cách so sánh kết quả với các phƣơng pháp học sâu cho bài toán xác định khía cạnh trên Tiếng Việt. - Kết quả nghiên cứu có thể tích hợp vào các phần mềm khảo sát đánh giá chất lƣợng giáo dục giúp tăng thêm tính năng và tạo ra chuyên nghiệp cho phần mềm. - Phần mềm tạo ra không những chỉ sử dụng đƣợc tại Phân hiệu mà còn có thể sử dụng đƣợc cho các cơ sở giáo dục đại học khác. 7. Kết quả đề tài Đề tài đã đạt đƣợc những kết quả tóm tắt sau đây: - Một bộ ngữ liệu chuẩn tiếng Việt với kích thƣớc là 5.100 ý kiến phản hồi đƣợc gán thủ công cho bài toán phân tích ý kiến theo khía cạnh với độ đồng thuận giữa những ngƣời gán nhãn là 88,95% cho phát hiện khía cạnh và 80,52% cho phát hiện khía cạnh và cảm xúc trên khía cạnh. - Nghiên cứu, so sánh và thử nghiệm sự hiệu quả các phƣơng pháp học máy NB, NN, SVM, LSTM, CNN, BiLSTM-CNN, BERT. Trong đó mô hình BERT cho kết quả hiệu quả tốt hơn so với các mô hình khác với chỉ số F1 phát hiện khía cạnh là 82,53% và phát hiện khía cạnh và trạng thái cảm xúc tƣơng ứng 79,39%. - Xây dựng phần mềm demo công nghệ web với các tính năng cần thiết minh hoạ cho nghiên cứu mà nhóm nghiên cứu đã thực hiện. - Một bài báo khoa học tại tạp chí chuyên ngành với thông tin nhƣ sau: 10
  13. “Sáu, Tôn Nữ Thị, Đỗ Phƣớc Sang, and Phạm Thị Thu Trang. "Phân tích ý kiến theo khía cạnh trên bình luận phản hồi của sinh viên cho tiếng Việt." TNU Journal of Science and Technology 226, no. 18 (2021): 48-55.” 8. Cấu trúc của đề tài Chƣơng 1 - Cơ sở lý thuyết. Trình bày nội dung lý thuyết về lĩnh vực xử lý ngôn ngữ tự nhiên, các mô hình máy học, học sâu. Đồng thời đƣa ra các công trình nghiên cứu có liên quan đến đề tài. Chƣơng 2 - Xây dựng dữ liệu dựa trên ý kiến phản hồi của sinh viên. Chƣơng này trình bày về quá trình nhóm nghiên cứu xây dựng hƣớng dẫn gán nhãn, các các giai đoạn trong quá trình xây dựng bộ dữ liệu. Chƣơng 3 – Kết quả thử nghiệm trên các mô hình máy học và phần mềm Phân tích tự động ý kiến phản hồi của sinh viên về chất lƣợng đào tạo theo khía cạnh. Trong chƣơng này nhóm nghiên cứu trình bày về các mô hình mà nhóm nghiên cứu đã thử nghiệm. Đánh giá so sánh kết quả thử nghiệm của các mô hình trên bộ dữ liệu mà nhóm nghiên cứu xây dựng. Đồng thời trình bày về phần mềm Phân tích tự động ý kiến phản hồi của sinh viên về chất lƣợng đào tạo theo khía cạnh. Cuối cùng, tổng kết lại các kết quả quan trọng trong đề tài mà nhóm nghiên cứu đã nghiên cứu và thực hiện, đƣa ra các hạn chế và hƣớng phát triển của đề tài. 11
  14. Chƣơng 1: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN Trong chƣơng này, nhóm nghiên cứu sẽ trình bày tổng quan các cơ sở lý thuyết về lĩnh vực xử lý ngôn ngữ tự nhiên và chi tiết bài toán Phân tích ý kiến, một số mô hình máy học mà nhóm nghiên cứu sử dụng để thực nghiệm. Bên cạnh đó liệt kê các công trình liên quan đến đề tài này. 1.1 Các khái niệm cơ bản 1.1.1. Xử lý ngôn ngữ tự nhiên Từ khi có máy tính thì dữ liệu ngôn ngữ đã xuất hiện, khối dữ liệu ngôn ngữ ngày càng trở nên khổng lồ khi internet phát triển vì bất cứ ngƣời nào cũng có thể tạo ra dữ liệu ngôn ngữ nhƣ tiếng nói hoặc văn bản. Đặc thù chính của kiểu dữ liệu ngôn ngữ là không có cấu trúc hoặc nửa cấu trúc và không thể phân tích ra các thuộc tính cụ thể để lƣu trữ trong các dòng và cột của bảng biểu. Với tham vọng làm sao cho máy tính đọc và hiểu đƣợc dữ liệu ngôn ngữ đó phân tích và đƣa ra các tri thức hữu ích để phục vụ cho quốc gia, cho doanh nghiệp, cho bản thân. Với tham vọng đó các nhà nghiên cứu trên thế giới đã quan tâm và nghiên cứu các phƣơng pháp xử lý dữ liệu ngôn ngữ ngay từ cuối những năm 1940 [1] và từ đó lĩnh vực nghiên cứu ngôn ngữ tự nhiên cũng xuất hiện. Theo Liddy, E. D [9] quá trình xử lý ngôn ngữ tự nhiên là một tập hợp các kỹ thuật máy tính đƣợc vận hành một cách lý thuyết để phân tích và miêu tả (đƣa ra, trình bày) các văn bản xuất hiện tự nhiên ở một hoặc nhiều cấp độ phân tích ngôn ngữ nhằm mục đích đạt đƣợc quá trình xử lý ngôn ngữ gần giống con ngƣời xử lý cho một loạt các nhiệm vụ hoặc ứng dụng. Đầu vào của bài toán Xử lý ngôn ngữ tự nhiên là dữ liệu ngôn ngữ đầu ra là những vấn đề con ngƣời cần ví dụ nhƣ dịch văn bản đầu vào thành một ngôn ngữ khác, trả lời các câu hỏi về nội dung của văn bản đầu vào hoặc rút ra suy luận từ văn bản đầu vào.v.v… Trong thực tế dữ liệu ngôn ngữ có hai loại đó tiếng nói và chữ viết, tƣơng đƣơng với hai vai trò đó là vai trò của ngƣời đọc và vai trò của ngƣời nghe. Cho 12
  15. nên trong lĩnh vực xử lý ngôn ngữ tự nhiên cũng chia làm hai lĩnh vực nhỏ bên trong là xử lý văn bản và xử lý tiếng nói. Một số ứng dụng tiêu biểu trong lĩnh vực xử lý ngôn ngữ tự nhiên đó là phân loại văn bản, tìm kiếm và truy xuất thông tin, dịch máy, tóm tắt văn bản tự động, hay kiểm tra lỗi chính tả tự động và nhận dạng tiếng nói, chuyển từ tiếng nói sang chữ viết và ngƣợc lại. 1.1.2. Bài toán Phân tích ý kiến Theo từ điển Lạc Việt ý kiến là điều suy nghĩ, cách đánh giá riêng của mỗi ngƣời về một vấn đề nào đó. Phân tích là phân chia các thành phần quan trọng, khía cạnh nổi bật của một đối tƣợng ra thành các yếu tố. Phân tích ý kiến có nghĩa là phân tích các đánh giá của một cá nhân về một vấn đề nào đó ra các thành phần quan trọng. Phân tích ý kiến (opinion analysis) hay còn gọi phân tích tình cảm (sentiment analysis) là một lĩnh vực nghiên cứu, nó có liên quan chặt chẽ đến (hoặc có thể đƣợc coi là một phần của) ngôn ngữ học tính toán, xử lý ngôn ngữ tự nhiên và khai thác văn bản. Từ những năm đầu của thế kỷ 21 phân tích ý kiến đã đƣợc các nhà nghiên cứu trên thế giới tập trung nghiên cứu và cho đến nay cũng có nhiều kết quả nghiên cứu đƣợc ứng dụng vào thực tiễn [14]. Mục tiêu của bài toán phân tích ý kiến là xác định tình cảm hoặc quan điểm hoặc mức độ phân cực tình cảm có trong các ý kiến đầu vào. Các các trạng thái tình cảm ví dụ nhƣ là vui, buồn, tức giận, phẫn nộ hoặc yêu, thích, ghét, căm thù. Các mức độ phân cực nhƣ là tích cực, tiêu cực, bình thƣờng. Phân tích ý kiến không những đƣợc các nhà nghiên cứu quan tâm nghiên cứu và phát triển mà còn đƣợc các doanh nghiệp thƣơng mại ứng dụng trong nhiều lĩnh vực khác nhau nhƣ phân loại cảm xúc, thái độ ngƣời dùng thông qua đánh giá của họ về sản phẩm, dịch vụ của doanh nghiệp trên trang các trang thƣơng mại điện tử, trên trang mạng xã hội giúp các doanh nghiệp nắm bắt đƣợc thái độ, tình cảm của khách hàng đối với những sản phẩm, dịch vụ mà họ đang cung cấp trên thị trƣờng để từ đó họ đƣa ra những chính sách tốt hơn nhằm cải thiện hoạt động kinh doanh của doanh nghiệp mình. Một ứng dụng khác của bài 13
  16. toán phân tích ý kiến là ứng dụng chatbox để xác định là trạng thái cảm xúc hiện tại của đối phƣơng là gì. Hiện nay, bài toán phân tích cảm xúc có ba cấp độ đó là cấp độ câu văn (sentence-level), văn bản (document-level), và khía cạnh (aspect-level). - Mức độ văn bản (Document level): xác định cảm xúc hoặc quan điểm của toàn bộ văn bản hoặc một đoạn văn bản. - Mức độ câu (Sentence level): xác định cảm xúc hoặc quan điểm cho một câu đơn riêng lẻ. - Mức độ cụm từ (Phrase level): xác định cảm xúc hoặc quan điểm cho từng cụm từ nhỏ ở trong một câu. 1.1.3. Bài toán phân tích ý kiến theo khía cạnh Bài toán phân tích ý kiến chủ yếu tập trung giải quyết vấn đề một cách chung chung là đƣa văn bản ý kiến đầu vào phân tích ra cảm xúc hoặc quan điểm của các ý kiến đó. Tuy nhiên, trên thực tế khi ta nghiên cứu bộ dữ liệu các ý kiến về một lĩnh vực nào đó ví dụ bộ dữ liệu ý kiến về nhà hàng, bộ dữ liệu ý kiến về khách sạn, bộ ý kiến phản hồi của sinh viên về chất lƣợng đào tạo, .v.v… lúc đó ta sẽ thấy rằng, có ý kiến chỉ nói về một khía cạnh nào đó cụ thể, nhƣng có ý kiến lại đề cập đến nhiều khía cạnh khác nhau và mỗi khía cạnh lại có một trạng thái cảm xúc hoặc mức độ cảm xúc khác nhau. Nếu nhƣ chúng ta chỉ phân tích ý kiến đó theo mức độ cảm xúc tích cực, tiêu cực hoặc trung tính thì sẽ không chính xác. Ví dụ khi phân tích một ý kiến phản hồi của sinh viên “Thầy dạy khó hiểu nhƣng đƣợc cái thầy hay giúp đỡ sinh viên” về chất lƣợng đào tạo thì chúng ta sẽ thấy rằng trong câu này đề cập đến hai khía cạnh, khía cạnh thứ nhất là kỹ năng giảng dạy của thầy, khía cạnh thứ hai là hành vi của thầy và ta dễ dàng nhìn thấy rằng đối với khía cạnh kỹ năng giảng dạy của thầy là tiêu cực còn hành vi của thầy là tích cực. Nếu trong trƣờng hợp này chúng ta cho ý kiến này là tiêu cực cũng không chính xác, mà tích cực cũng không chính xác. Từ nhu cầu thức tế bài toán phân tích ý kiến theo khía cạnh ra đời và đƣợc nhiều nhà nghiên cứu quan tâm. 14
  17. Bài toán phân tích ý kiến theo khía cạnh (aspect based opinions analysis) hay còn gọi là bài toán phân tích cảm xúc theo khía cạnh (aspect based sentiment analysis) với mục tiêu chính là xác định khía cạnh có trong ý kiến, sau đó xác định cảm xúc cho khía cạnh đó. Đầu vào của bài toán phân tích ý kiến theo khía cạnh: Là văn bản ý kiến. Đầu ra của bài toán phân tích ý kiến theo khía cạnh: Là các khía cạnh đƣợc đề cập trong ý kiến và cảm xúc của các khía cạnh đó. Bộ khía cạnh đƣợc định nghĩa sẵn trƣớc đó. Từ ví dụ trên cho thấy bài toán phân tích ý kiến theo khía cạnh là có sự khác biệt với bài toán phân tích ý kiến. Bài toán phân tích ý kiến theo khía cạnh là phân tích văn bản ra các khía cạnh khác nhau, sau đó xác định trạng thái cảm xúc của mỗi khía cạnh có xuất hiện ở trong ý kiến Hiện nay phân tích cảm xúc đƣợc rất nhiều doanh nghiệp quan tâm và xây dựng ứng dụng để đo lƣờng sức khoẻ thƣơng hiệu, quảng bá thƣơng hiệu nhƣ Awario, Brandwatch, Talkwalke... Kết quả phân tích từ các phần mềm này sẽ giúp cho doanh nghiệp phát hiện ra những vấn đề khách hàng đánh giá tốt và chƣa tốt để doanh nghiệp có kế hoạch cải tiến phù hợp với từng vấn đề. 15
  18. Hình 1. 1. Phần mềm Awario phân tích cảm xúc khách hàng Nguồn: https://marketingai.vn/10-cong-cu-phan-tich-cam-xuc-dung-de-do- luong-suc-khoe-thuong-hieu/ 1.1.4. Máy học. Kể từ khi tiến hoá con ngƣời đã biết sử dụng các vật liệu có sẵn trong thiên nhiên nhƣ đá, cây làm những công cụ đơn giản để săn, bắt, hái, lƣợm. Với sự sáng tạo của bộ não con ngƣời đã phát minh ra các máy móc. Những chiếc máy này đã làm cho cuộc sống của con ngƣời trở nên dễ dàng bằng cách cho phép mọi ngƣời đáp ứng các nhu cầu cuộc sống khác nhau, bao gồm du lịch, các ngành công nghiệp và máy tính. Và học máy là một trong số họ. Tác giả Arthur Samuel [15] đã định nghĩa máy học là lĩnh vực nghiên cứu cung cấp cho máy tính khả năng học hỏi mà không đƣợc lập trình rõ ràng. Học máy dựa trên các thuật toán khác nhau để giải quyết vấn đề dữ liệu. Các nhà khoa học dữ liệu muốn chỉ ra rằng có không có loại thuật toán duy nhất nào phù hợp để giải quyết tất cả vấn đề. Loại thuật toán đƣợc sử dụng phụ thuộc vào loại vấn đề bạn muốn giải quyết, số lƣợng các biến, loại mô hình phù hợp nhất với nó, v.v. 16
  19. Học máy có ứng dụng rộng khắp trong các ngành khoa học sản xuất, đặc biệt là những ngành phân tích đối tƣợng dữ liệu khổng lồ nhƣ: Xử lý ngôn ngữ tự nhiên (natural language processing), Máy tìm kiếm (search engine), nhận diện hình ảnh (computer vision) Hình 1. 2. Lịch sử phát triển của máy học Nguồn: https://machinelearningcoban.com/2016/12/26/introduce/ Trong những năm gần đây, công nghệ phần cứng máy tính đƣợc nâng lên tầm cao mới vì thế hiện nay chúng ta có đƣợc thế hệ máy tính với khả năng tính toán siêu tốc và khả năng lƣu trữ lớn. Vì sở hữu đƣợc hệ thống siêu máy tính cho nên các hãng công nghệ lớn thu thập đƣợc khối dữ liệu khổng lồ. Cùng với sự phát triển vƣợt bậc của công nghệ phần cứng, phần mềm, máy học cũng đã tiến thêm một bƣớc dài và đóng góp quan trọng trong các bài toán khác nhau, trong lĩnh vực khác nhƣ xử lý ảnh, xử lý ngôn ngữ hay các kỹ thuật y sinh. Từ đó cho thấy rằng máy học đóng một vai trò nền tảng trong sự phát triển của ngành trí tuệ nhân tạo trên thế giới hiện nay. 1.2. Một số mô hình máy học và học sâu 1.2.1. Mô hình máy học Support Vector Machine Support Vector Machine – SVM [1] là một thuật toán máy học giám sát đƣợc sử dụng cho cả bài toán phân lớp (classification) và hồi quy (regression). 17
  20. Tuy nhiên, SVM chủ yếu sử dụng trong bài toán phân lớp. Hiện nay, SVM đƣợc xem là một thuật toán mạnh mẽ trong lĩnh vực máy học. Giả sử chúng ta có hai phân lớp khác nhau đƣợc mô tả bởi các điểm trong không gian nhiều chiều. Yêu cầu chúng ta phải tìm kiếm đƣợc một mặt phẳng để phân loại chính xác hai phân lớp đó, nghĩa là mặt phẳng đó sẽ phân tách đƣợc các điểm ở cùng phân lớp sẽ nằm trên cùng một phía của mặt phẳng và hai phân lớp khác nhau sẽ nằm ở trên hai phía khác nhau của mặt phẳng. Trong Hình 1.3, chúng ta có thể thấy có rất nhiều mặt phẳng đƣợc tìm thấy có thể giải quyết đƣợc bài toán trên. Hình 1. 3. Các mặt phẳng phân tách hai lớp Nguồn: https://machinelearningcoban.com/assets/19_svm/svm1.png Tuy nhiên, trong các mặt phẳng đó, chúng ta cần tìm mặt phẳng có thể phân chia tốt nhất và hiệu quả nhất. Mặt phẳng tốt nhất cần tìm là mặt phẳng phân chia sao cho khoảng cách từ điểm gần nhất của các phân lớp tới mặt phẳng là bằng nhau và khoảng cách đó đƣợc gọi là margin. Đồng thời, chúng ta cần một mặt phẳng mà margin là lớn nhất thì sẽ mang lại khả năng phân lớp tốt hơn. Thuật toán SVM đƣợc phát triển từ việc tìm kiếm ra siêu mặt phẳng sao cho margin là lớn nhất. 18
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
3=>0