intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn Thạc sĩ Công nghệ thông tin: Phân tích quan điểm trong lĩnh vực thức ăn trẻ em sử dụng kỹ thuật học máy

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:64

9
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn định hướng tìm hiểu các phương pháp phân tích quan điểm, trên cơ sở đó đề xuất phương pháp và thử nghiệm các kỹ thuật học máy trong bài toán phân tích quan điểm, cụ thể là dữ liệu thức ăn trẻ em, từ những dữ liệu thu thập được trên website, các diễn đàn đánh giá sản phẩm, các mạng xã hội, học viên xin được đề xuất nghiên cứu và đưa ra mô hình ứng dụng.

Chủ đề:
Lưu

Nội dung Text: Luận văn Thạc sĩ Công nghệ thông tin: Phân tích quan điểm trong lĩnh vực thức ăn trẻ em sử dụng kỹ thuật học máy

  1. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ LIÊN PHÂN TÍCH QUAN ĐIỂM TRONG LĨNH VỰC THỨC ĂN TRẺ EM SỬ DỤNG KỸ THUẬT HỌC MÁY LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN VĂN VINH Hà Nội 2021
  2. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ LIÊN PHÂN TÍCH QUAN ĐIỂM TRONG LĨNH VỰC THỨC ĂN TRẺ EM SỬ DỤNG KỸ THUẬT HỌC MÁY NGÀNH: CÔNG NGHỆ THÔNG TIN CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN VĂN VINH Hà Nội 2021
  3. MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .......................................... v DANH MỤC CÁC BẢNG BIỂU ........................................................................ vi DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ............................................................. vii LỜI CAM ĐOAN……....................................................................................... viii LỜI CẢM ƠN………. ......................................................................................... ix MỞ ĐẦU……………. .......................................................................................... 1 1. Lý do chọn đề tài ................................................................................. 1 2. Mục tiêu và nhiệm vụ của luận văn .................................................... 2 3. Bố cục luận văn ................................................................................... 2 CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN PHÂN TÍCH QUAN ĐIỂM ........ 3 1.1. Giới thiệu.......................................................................................... 3 1.2. Định nghĩa và khái niệm trong phân tích quan điểm ....................... 4 1.2.1. Các thành phần của một quan điểm .......................................... 4 1.2.2. Các nhiệm vụ của phân tích quan điểm .................................... 7 1.3. Những thách thức trong lĩnh vực phân tích quan điểm.................. 10 1.4. Các ứng dụng của phân tích quan điểm ......................................... 12 1.5. Phân lớp quan điểm ........................................................................ 13 Kết luận chương .................................................................................... 14 CHƯƠNG 2: CÁC KỸ THUẬT HỌC MÁY TRONG BÀI TOÁN PHÂN TÍCH QUAN ĐIỂM ......................................................................................... 15 2.1. Các phương pháp tiếp cận của phân tích quan điểm...................... 15 2.1.1. Phương pháp tiếp cận dựa trên luật......................................... 15 2.1.2. Phương pháp tiếp cận dựa vào học máy ................................. 16 2.2. Phương pháp Naïve Bayes ............................................................ 16 2.3. Phương pháp Support Vector Machine (SVM) ............................. 18 2.4. Phương pháp Hồi quy Logistic (Logistic regression).................... 21 2.4.1. Giới thiệu................................................................................. 21 2.4.2. Mô hình Logistic ..................................................................... 21
  4. 2.4.3. Hàm Logistic và các tỉ lệ......................................................... 23 2.5. Phương pháp tiếp cận học sâu (Deep Learning) ............................ 25 2.5.1. Mạng Neural hồi quy RNN ..................................................... 26 2.5.2. Mạng Long Short-Term Memory ........................................... 28 Kết luận chương .................................................................................... 32 CHƯƠNG 3: ỨNG DỤNG PHÂN TÍCH QUAN ĐIỂM VỚI DỮ LIỆU THỨC ĂN TRẺ EM ......................................................................................... 33 3.1. Hệ thống phân tích quan điểm ....................................................... 33 3.2. Đặc điểm của dữ liệu thức ăn trẻ em.............................................. 34 3.3. Tiền xử lý dữ liệu và gán nhãn....................................................... 35 3.3.1. Tiền xử lý dữ liệu .................................................................... 35 3.3.2. Gán nhãn dữ liệu ..................................................................... 36 3.4. Trích chọn đặc trưng ...................................................................... 39 3.5. Xây dựng và lựa chọn mô hình ...................................................... 41 3.6. Phương pháp đánh giá mô hình ..................................................... 42 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ ............................................... 45 4.1. Môi trường thực nghiệm: ............................................................... 45 4.2. Xây dựng và lựa chọn mô hình ...................................................... 45 4.3. Huấn luyện mô hình ....................................................................... 48 4.4. Kết quả thực nghiệm ...................................................................... 48 4.5. Đánh giá thực nghiệm .................................................................... 51 Kết luận chương……………………………………………………….52 KẾT LUẬN………………. ................................................................................ 53 Tài liệu tham khảo….. ......................................................................................... 54
  5. v DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Viết tắt Đầy đủ tiếng anh Ý nghĩa tiếng việt Độ chính xác trung bình các ACC Accuracy thuật toán BOW Bag of word Túi từ Mạng bộ nhớ thuật ngữ ngắn LSTM Long Short Term Memory dài NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên OA Opinion analysis Phân tích quan điểm SA Sentiment Analysis Phân tích cảm xúc SVM Support Vector Machine Máy véc-tơ hỗ trợ Term Frequency – Inverse Tần suất tài liệu nghịch đảo TF-IDF Document Frequency thuật ngữ
  6. vi DANH MỤC CÁC BẢNG BIỂU Bảng 3. 1: Một số từ dừng trong tiếng Việt ................................................ 36 Bảng 4. 1: Kết quả huấn luyện mô hình với độ đo ACC ............................ 48 Bảng 4. 2: Kết quả độ chính xác theo cỡ của dữ liệu huấn luyện ............. 49 Bảng 4. 3: Thời gian huấn luyện của các tập dữ liệu.................................. 50
  7. vii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 2. 1: SVM tìm dòng tốt nhất phân tách hai lớp ................................. 19 Hình 2. 2: Ví dụ về siêu phẳng trong SVM ................................................ 19 Hình 2. 3: Siêu phẳng phân chia lề xa nhất ............................................... 21 Hình 2. 4: Đồ thị của hàm Logistic khi t thuộc (-6,6) ................................ 23 Hình 2. 5: Mạng RNN có vòng lặp ............................................................. 27 Hình 2. 6: Mô đun lặp lại trong RNN ......................................................... 28 Hình 2. 7: Mô đun lặp lại trong một LSTM ............................................... 28 Hình 2. 8: Ct của LSTM .............................................................................. 29 Hình 2. 9: Cổng trạng thái LSTM ............................................................... 30 Hình 2. 10: Cổng quên LSTM .................................................................... 30 Hình 2. 11: Cổng vào it của tanh 𝐶 𝑡 ̃ ........................................................... 31 Hình 2. 12: Giá trị state Ct .......................................................................... 31 Hình 2. 13: Kết quả trả về ht ....................................................................... 31 Hình 3. 1: Kiến trúc hệ thống phân tích quan điểm .................................... 34 Hình 3. 2: Tập dữ liệu thức ăn trẻ em ......................................................... 35 Hình 3. 3: Nhập dữ liệu cần gán nhãn ........................................................ 37 Hình 3. 4: Thực hiện gán nhãn dữ liệu ....................................................... 38 Hình 3. 5: Tập dữ liệu thức ăn trẻ em sau khi được gán nhãn .................... 38 Hình 3. 6: Tỉ lệ tập dữ liệu đã được gán nhãn ............................................ 39 Hình 3. 7: Mô hình phân lớp học máy truyền thống ................................. 42 Hình 4. 1: Tệp dữ liệu sau khi được tải ...................................................... 46 Hình 4. 2: Chương trình loại bỏ những nhãn lớn hơn 1 và nhỏ hơn 5 ....... 47 Hình 4. 3: Kết quả đánh giá các mô hình sử dụng độ đo ACC .................. 48 Hình 4. 4: Kết quả đánh giá độ lớn của dữ liệu với độ đo ACC ................ 49 Hình 4. 5: Một số bình luận dự đoán sai nhãn khi dùng LTSM……………51
  8. viii LỜI CAM ĐOAN Em xin cam đoan nội dung trình bày trong luận văn này là do em tự nghiên cứu tìm hiểu dưới sự hướng dẫn của giảng viên TS.Nguyễn Văn Vinh. Mọi tham khảo các tài liệu, công trình nghiên cứu của một số tác giả, em đã ghi rõ tên tài liệu, nguồn gốc tài liệu, tên tác giả trong “TÀI LIỆU THAM KHẢO” ở cuối luận văn. Mọi sao chép không hợp lệ hay gian lận em xin hoàn toàn chịu trách nhiệm. Hà Nội, Ngày 26 tháng 11 năm 2021 Người cam đoan Nguyễn Thị Liên
  9. ix LỜI CẢM ƠN Trước hết em xin gửi lời cảm ơn và bày tỏ lòng biết ơn sâu sắc đến thầy Nguyễn Văn Vinh, người đã định hướng đề tài, cung cấp cho em những kiến thức, những tài liệu và tận tình hướng dẫn chỉ bảo em trong suốt quá trình thực hiện đề tài luận văn. Em cũng xin chân thành cảm ơn các thầy, cô giáo của khoa Công nghệ thông tin – Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội đã dạy bảo, truyền thụ kiến thức, tạo điều kiện tốt nhất trong suốt quá trình em học tập tại trường. Em cũng xin chân thành cảm ơn bạn bè đồng nghiệp, các bạn học viên K24 đã ủng hộ và khuyến khích tôi trong suốt quá trình học tập tại trường. Cuối cùng, Em xin gửi lời cảm ơn sâu sắc nhất đến gia đình, người thân luôn kịp thời động viên và giúp đỡ tôi vượt qua những khó khăn trong học tập cũng như trong cuộc sống. Hà Nội, Ngày 26 tháng 11 năm 2021 Học viên Nguyễn Thị Liên
  10. 1 MỞ ĐẦU 1. Lý do chọn đề tài Hiện nay sự phát triển nhanh chóng của khoa học, công nghệ đã có những đóng góp quan trọng, làm thay đổi cơ bản mọi mặt của đời sống kinh tế - xã hội. Sự ra đời, phát triển của mạng Internet đã tạo nên những đột phá trong kết nối, chia sẻ thông tin, thúc đẩy phát triển kinh tế, giao lưu văn hóa. Bên cạnh đó, sự phát triển bùng nổ của các trang diễn đàn, mạng xã hội, các trang web lấy ý kiến người dùng chính là cầu nối để mọi người dễ dàng thể hiện quan điểm cá nhân về những sự kiện nổi bật đáng quan tâm, những thông tin kinh tế, những trao đổi về các lĩnh vực của đời sống xã hội, thị trường, sản phẩm và dịch vụ. Gần đây, bài toán phân tích quan điểm đã được ứng dụng rộng rãi trong các lĩnh vực: du lịch, khách sạn, các dịch vụ tài chính cho đến tiêu dùng, chăm sóc sức khỏe. Khi xã hội ngày càng phát triển thì các bậc phụ huynh ngày càng quan tâm nhiều đến tương lai con em mình, trong đó mục tiêu hàng đầu chính là bổ sung thêm các chất dinh dưỡng nhằm phát triển chiều cao, trí thông minh cho các bé. Ngày nay, thay vì sử dụng cách thu thập đánh giá, phát phiếu thăm dò cũng như hỏi trực tiếp, trưng cầu ý kiến qua các trang web, các cá nhân hay tổ chức đã phân tích tự động lượng dữ liệu đánh giá lớn từ các trang mạng xã hội, các diễn đàn, các trang đánh giá sản phẩm nhằm tận dụng nguồn thông tin hữu ích giúp tiết kiệm phần nào chi phí. Các tổ chức doanh nghiệp, các công ty có thể lấy ý kiến đánh giá về sản phẩm và dịch vụ của họ qua các bình luận trên các trang mạng. Việc thu thập các ý kiến đánh giá rất quan trọng cho các doanh nghiệp và tổ chức vì họ luôn mong muốn tìm kiếm xem người tiêu dùng có nhận xét gì về sản phẩm và dịch vụ của họ, nhờ đó họ có thể xây dựng các chiến lược bán hàng và phát triển sản phẩm. Ngoài ra người tiêu dùng cũng mong muốn tham khảo các ý kiến đánh giá về sản phẩm hay dịch vụ mà họ quan tâm trước khi họ đưa ra quyết định trong việc mua, bán hay sử dụng các sản phẩm hoặc dịch vụ đó. Vấn đề đặt ra là làm thế nào biết được một chủ đề hoặc một sự kiện có bao nhiêu đánh giá tiêu cực hay tích cực, trong khi số lượng đánh giá rất lớn, vượt qua khả năng của con người. Chính vì vậy bài toán phân tích quan điểm được đặt ra để giải quyết vấn đề trên. Hiện nay, có nhiều kỹ thuật cho bài toán nhưng hiệu quả nhất là sử dụng kỹ thuật học máy.
  11. 2 Chính vì lý do đó học viên đã lựa chọn đề tài: “Phân tích quan điểm trong lĩnh vực thức ăn trẻ em sử dụng kỹ thuật học máy”. 2. Mục tiêu và nhiệm vụ của luận văn Luận văn định hướng tìm hiểu các phương pháp phân tích quan điểm, trên cơ sở đó đề xuất phương pháp và thử nghiệm các kỹ thuật học máy trong bài toán phân tích quan điểm, cụ thể là dữ liệu thức ăn trẻ em, từ những dữ liệu thu thập được trên website, các diễn đàn đánh giá sản phẩm, các mạng xã hội, học viên xin được đề xuất nghiên cứu và đưa ra mô hình ứng dụng. Mô hình bao gồm các bước từ thu thập dữ liệu, tiền xử lý dữ liệu, vectơ hóa dữ liệu đến lựa chọn mô hình học máy và huấn luyện. Cuối cùng là đưa ra những đánh giá hiệu quả của thuật toán, bộ dữ liệu, kết quả đạt được và đánh giá về tính khả thi ứng dụng mô hình. 3. Bố cục luận văn Luận văn được bố trí thành bốn chương có nội dung như sau: Chương 1: Giới thiệu tổng quan về bài toán phân tích quan điểm trong lĩnh vực thức ăn trẻ em. Chương này tìm hiểu tổng quan: định nghĩa, khái niệm, các nhiệm vụ, thách thức trong phân tích quan điểm, tiếp đó bài toán chuẩn hóa trên tập dữ liệu thức ăn trẻ em được giới thiệu. Chương 2: Các kỹ thuật học máy trong bài toán phân tích quan điểm. Ở chương này nghiên cứu, tìm hiểu các phương pháp học máy cho bài toán phân tích quan điểm. Chương 3: Ứng dụng kỹ thuật học máy để phân tích quan điểm trong lĩnh vực thức ăn trẻ em. Chương 4: Thực nghiệm và đánh giá. Xây dựng cài đặt mô hình, huấn luyện mô hình tiến hành thử nghiệm, đánh giá mô hình. Kết luận tổng kết quá trình thực hiện luận văn, những kết quả đạt được và định hướng phát triển bài toán trong tương lai.
  12. 3 CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN PHÂN TÍCH QUAN ĐIỂM Phân tích quan điểm là một lĩnh vực được các nhà nghiên cứu và các nhà phát triển trong lĩnh vực Internet dành nhiều sự quan tâm trong thập niên vừa qua. Mục tiêu hướng đến của phân tích quan điểm là xây dựng các hệ thống tự động xác định các quan điểm, tình cảm, đánh giá, thái độ và cảm xúc của con người cho các thực thể hoặc các thuộc tính của chúng được thể hiện trong các văn bản bằng ngôn ngữ tự nhiên. 1.1. Giới thiệu Các thực thể mà phân tích quan điểm quan tâm rất rộng. Nó có thể là các thông tin về thị trường, các sản phẩm hoặc dịch vụ, các sự kiện nổi bật, những thông tin về kinh tế - chính trị. Các thực thể này thường được thể hiện qua các cuộc thảo luận, tin tức, bình luận, phản hồi đánh giá. Để hệ thống có thể tự động thực hiện các nhiệm vụ đề ra, phân tích quan điểm dựa trên ngôn ngữ tính toán, khai thác văn bản, truy vấn thông tin, xử lý ngôn ngữ tự nhiên, thống kê, phân tích dự đoán và học máy. Phân tích quan điểm thường sử dụng kết hợp giữa các giải pháp xử lý ngôn ngữ tự nhiên và phương pháp trong học máy để phân lớp, trích xuất và xác định quan điểm được thể hiện trong văn bản hoặc tài liệu. Những dữ liệu đánh giá này thực sự hữu ích cho cả các nhà sản xuất, nhà hoạch định chiến lược cũng như người tiêu dùng. Đối với nhà sản xuất và nhà hoạch định chiến lược, các thông tin hữu ích giúp họ có thể nắm bắt thông tin, ý kiến của khách hàng hài lòng hay thất vọng về sản phẩm, dịch vụ của họ, qua đó kịp thời điều chỉnh, cải tiến sản phẩm, nâng cấp dịch vụ để đáp ứng nhu cầu của khách hàng cũng như có các đối sách và quyết định phù hợp nhằm xử lý các vấn đề liên quan. Ngoài ra, đối với người sử dụng, họ có thêm thông tin hữu ích giúp đánh giá về các sản phẩm và dịch vụ được quan tâm để có thể đưa ra các quyết định đúng đắn cho mình. Dữ liệu phân lớp quan điểm có thể được thu thập từ nhiều nguồn như: website, các trang mạng xã hội, blog, các cộng đồng. Đặc điểm của dữ liệu dạng này thường là các đánh giá theo thang điểm, cấp độ hoặc là một cụm câu ngắn tổng kết tính năng của sản phẩm hoặc dịch vụ cụ thể được thể hiện bằng ngôn ngữ tự nhiên. Từ đó, có thể thấy dữ liệu được thu thập đều có kiểu không tập trung, vụn vặt, đa dạng và đặc biệt là thuần văn bản. Vấn đề là tập dữ liệu được thu thập là khổng lồ, rất đa dạng về các khía cạnh quan tâm của người sử dụng, hơn nữa các ý kiến được viết theo ngôn ngữ
  13. 4 tự nhiên thường không có cấu trúc hay đúng ngữ pháp, các bài spam khiến việc trích lọc thông tin hữu ích khó khăn, tốn thời gian và chi phí. Như vậy, nhiệm vụ quan trọng là phân lớp quan điểm của người sử dụng từ tập dữ liệu đầu vào nhằm đưa ra kết quả mong muốn. Đây chính là nội dung trọng tâm mà luận văn sẽ nghiên cứu tìm hiểu và giải quyết. 1.2. Định nghĩa và khái niệm trong phân tích quan điểm Phân tích quan điểm (Opinion Analysis – OA) hay phân tích biểu cảm (Sentiment Analysis –SA) là lĩnh vực nghiên cứu phân tích các quan điểm, thái độ, biểu cảm, tình cả và cảm xúc của con người về thực thể và các thuộc tính thể hiện trong văn bản nhằm mục đích phát hiện quan điểm tiêu cực hoặc tích cực. Các thực thể có thể là các sản phẩm, dịch vụ, sự kiện nổi bật, sự vật, sự việc [4,8] 1.2.1. Các thành phần của một quan điểm Trong nghiên cứu, nhiều nhà khoa học đã đưa ra cấu trúc tổng quan của một quan điểm [3,4,9,11]. Luận văn sử dụng bài đánh giá về sữa bột Dialac để giới thiệu vấn đề. (Các câu trong bài đánh giá được đánh số cho tiện cho việc tham khảo) Người bình luận: Nguyễn Thị A Ngày:11/05/2020 “Tôi có mua một hộp sữa Dialac 123 cho con mình 3 tháng trước (1). Con tôi thích sữa này do vị ngon tự nhiên của nó (2). Tôi cũng thích sữa Dialac vì nó giúp con tôi cải thiện được vấn đề dinh dưỡng (3). Tôi thấy chuyên gia khuyên dùng sữa này do chứa nhiều vi chất tốt cho trẻ nhỏ (4). Tuy nhiên, giá của sữa khá cao so với thu nhập của tôi (5).” Từ ví dụ trên ta thấy: 1. Bài đánh giá có một số ý kiến cả tích cực và tiêu cực về sữa bột Dialac 123. Câu (2) bày tỏ ý kiến tích cực về vị ngon của sữa. Câu (3) bày tỏ ý kiến tích cực về sữa Dialac 123. Câu (4) bày tỏ ý kiến tích cực về thành phần của sữa theo tìm hiểu của chuyên gia. Câu (5) bày tỏ ý kiến trái chiều về giá của sản phẩm. Từ những ý kiến này, ta có thể đưa ra nhận xét quan trọng sau: Theo quan sát: Một quan điểm bao gồm hai thành phần chính: Mục tiêu g và cảm nhận về mục tiêu s tức cặp . Trong đó,  g có thể là bất kỳ thực thể hay khía cạnh của thực thể mà quan điểm
  14. 5 đã được thể hiện  s là cảm nhận về mục tiêu g. s có thể là đánh giá theo kiểu phân cực như: tiêu cực, tích cực hoặc trung tính; hay đánh giá theo thang điểm từ 1 đến 5 sao. Trong ví dụ trên, mục tiêu của quan điểm trong câu (2) là vị sữa Dialac 123 và mục tiêu của quan điểm câu (3) là sữa Dialac 123. Mục tiêu cũng được gọi là chủ đề trong bài đánh giá hoặc tài liệu chứa đánh giá. 2. Trong ví dụ trên, có hai người đưa ra đánh giá là người con và Nguyễn Thị A. Hai đối tượng này được gọi là nguồn quan điểm hoặc người đưa ra đánh giá [3,5]. Người đưa ra đánh giá trong câu (2) là con của tác giả còn các câu (3), (4), (5) là chính tác giả. 3. Thời gian đưa ra đánh giá là ngày 11/05/2020. Thông tin này rất quan trọng trong thực tế vì thông thường nhà sản xuất rất muốn biết các đánh giá sẽ thay đổi ra sao theo thời gian và xu hướng của các quan điểm. Vậy, từ ví dụ trên ta có thể định nghĩa quan điểm trong các mô hình mức tài liệu hay mức câu gồm 4 thành phần như sau: Định nghĩa 1.1: Quan điểm (Opinion) Là một bộ gồm 4 thành phần: trong đó:  gi là mục tiêu i của biểu cảm hay quan điểm  sj là biểu cảm của các ý kiến về mục tiêu gi. sj có thể là một đánh giá từ 1 đến 5 sao hoặc chia thành các cực của vấn đề như tiêu cực, tích cực và trung tính  hk là người hoặc tổ chức giữ quan điểm  tl là thời gian khi các quan điểm được thể hiện Trong cấu trúc trên, cả 4 thành phần đều rất cần thiết. Ví dụ, thành phần người giữ quan điểm rất quan trọng. Ý kiến của chuyên gia dinh dưỡng sẽ được đánh giá cao hơn ý kiến của một người bình thường về lĩnh vực dinh dưỡng. Hay, nhân tố thời gian thường rất quan trọng trong thực tế vì ý kiến của ngày hôm nay có thể khác so với các năm trước đây. Mỗi một quan điểm phải có mục tiêu đánh giá cần xác định vì trong một câu hoặc một tài liệu có thể có nhiều mục tiêu đánh giá. Chúng thường được xác định bởi danh từ hoặc cụm danh từ. Vì vậy, điều chúng ta cần thực hiện là xác định từng mục tiêu cụ thể và từng đánh giá cho mục tiêu này. Ví dụ, “Cháo dinh dưỡng tốt cho trẻ em nhưng cửa hàng này nấu chưa được chuẩn” ta có thể thấy
  15. 6 có 2 mục tiêu được xác định “cháo dinh dưỡng” và “cửa hàng”. Trong đó, mục tiêu “cháo dinh dưỡng” được đánh giá tích cực còn mục tiêu “cửa hàng” bị đánh giá tiêu cực. Các từ hoặc cụm từ chẳng hạn: “tốt”, “xấu”, “đẹp”, “ngon”, “dở”, “hư hỏng”,… thể quan điểm hoặc đánh giá của chủ thể về mục tiêu. Nó thường hay có cú pháp xác định và vì thế có thể cho phép trích xuất cả mục tiêu lẫn đánh giá của chúng. [4,6,13] Tuy nhiên, có một số trường hợp có thể một trong 4 thành phần bị khuyến thiếu. Ví dụ, trong câu “Sữa bột Dialac rất tốt cho trẻ sơ sinh” thì thành phần bị khuyết thiếu là thời gian tl. Vì vậy, trong quá trình phân tích quan điểm cần lưu ý các cú pháp câu nhằm phục vụ mục đích tách và trích rút dữ liệu được chính xác. Định nghĩa 1.1 tuy khá ngắn gọn tuy nhiên không dễ sử dụng trong thực tế, đặc biệt là trong lĩnh vực đánh giá trực tuyến về sản phẩm, dịch vụ và thương hiệu vì mô tả đầy đủ về mục tiêu có thể phức tạp và thậm chí thể không xuất hiện trong cùng một câu. Ví dụ, trong câu (2) mục tiêu đánh giá thực sự là “vị của sữa Dialac” hay trong câu (4) mục tiêu đánh giá là “hàm lượng vi chất trong sữa”. Hai câu này chỉ đề cập đến một khía cạnh của sữa Dialac chứ không phải bản thân thực thể là sữa Dialac. Trong thực tế, mục tiêu thường có thể được phân tích và mô tả theo cách có cấu trúc với nhiều cấp độ. Điều này tạo điều kiện thuận lợi cho cả việc phân tích ý kiến và sau đó sử dụng kết quả ý kiến đã được phân tích. Ví dụ, “vị của sữa Dialac” có thể được phân tách thành một thực thể và một thuộc tính của thực thể và có thể được biểu diễn dưới dạng một cặp, Chúng ta hãy sử dụng thuật ngữ thực thể để biểu thị đối tượng mục tiêu đã được đánh giá. Thực thể có thể được định nghĩa như [4,6]. Định nghĩa 1.2: Thực thể (entity) Một thực thể e là một sản phẩm, dịch vụ, chủ đề, vấn đề, con người, tổ chức hoặc sự kiện. Nó được mô tả với một cặp, e: (T, W), trong đó T là hệ thống phân cấp của các bộ phận, bộ phận con và W là tập hợp các thuộc tính của e. Mỗi bộ phận hoặc bộ phận con cũng có tập hợp các thuộc tính riêng. Ví dụ 1: Một loại sữa cụ thể là một thực thể, ví dụ Dialac 123. Nó có một tập hợp các thuộc tính, ví dụ: Màu sắc, trọng lượng, công thức và một tập các bộ phận ví dụ: tem mác, vỏ hộp, bột sữa. Kiểu dáng cũng có tập hợp các thuộc tính riêng, ví dụ: kiểu hộp giấy, hộp sắt, màu sắc… Định nghĩa này về cơ bản mô tả một thành phần phân cấp của thực thể dựa
  16. 7 trên quan hệ bộ phận. Nút gốc là tên của thực thể, ví dụ: Dialac 123 trong bài đánh giá ở trên. Tất cả các nút khác là các bộ phận và các bộ phận con, v.v ... Mỗi ý kiến được thể hiện trên bất kỳ nút nào và bất kỳ thuộc tính nào. Ví dụ 2: Trong bài đánh giá ví dụ của chúng tôi ở trên, câu (3) bày tỏ ý kiến tích cực về toàn thể sữa bột Dialac 123. Câu (2) bày tỏ ý kiến tích cực về thuộc tính vị của bột sữa. Rõ ràng, người ta cũng có thể bày tỏ ý kiến về các bộ phận hoặc thành phần của sữa bột Dialac 123. Thực thể này với tư cách là một hệ thống phân cấp của bất kỳ số cấp nào cần có một mối quan hệ lồng nhau để biểu diễn nó, điều này thường quá phức tạp đối với các ứng dụng. Lý do chính là vì xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) không hề đơn giản. Việc nhận biết các bộ phận và thuộc tính của một thực thể ở các mức độ chi tiết khác nhau gặp nhiều khó khăn. Tuy nhiên, hầu hết các ứng dụng cũng không cần phân tích phức tạp như vậy. Do đó, ta có thể đơn giản hoá hệ thống phân cấp thành hai cấp và sử dụng các thuật ngữ để biểu thị hai thành phần khía cạnh và thuộc tính Trong cây đơn giản hóa, nút gốc vẫn là chính thực thể, nhưng các nút cấp hai (cũng là cấp lá) là các khía cạnh khác nhau của thực thể. Khung đơn giản hóa này thường được sử dụng trong các hệ thống phân tích biểu cảm thực tế. Lưu ý rằng trong các tài liệu nghiên cứu, các thực thể còn được gọi là đối tượng, và các khía cạnh cũng được gọi là đặc điểm (như trong tính năng sản phẩm). Tuy nhiên, các tính năng ở đây có thể gây nhầm lẫn với các tính năng được sử dụng trong học máy, trong đó một tính năng có nghĩa là một thuộc tính dữ liệu. Để tránh nhầm lẫn, các khía cạnh đã trở nên phổ biến hơn trong những năm gần đây. Lưu ý rằng một số nhà nghiên cứu cũng sử dụng các khía cạnh thuật ngữ, thuộc tính và chủ đề, và trong các ứng dụng cụ thể, các thực thể và khía cạnh cũng có thể được gọi bằng các tên khác dựa trên quy ước miền ứng dụng. Sau khi phân tích mục tiêu ý kiến, chúng ta có thể xác định lại một ý kiến [4-6]. Từ đó, có một định nghĩa quan điểm dùng trong mức khía cạnh: 1.2.2. Các nhiệm vụ của phân tích quan điểm Với các định nghĩa mục 1.2.1, ta có thể đi vào các mục tiêu và nhiệm vụ chính của phân tích quan điểm [4,6]. Mục tiêu của phân tích quan điểm: Đưa ra một văn bản đánh giá d, phân tích tất cả các bộ đánh giá (ei, aij, sijkl, hk, tl) trong d. Nhiệm vụ chính được bắt nguồn từ bộ 5 thành phần. Đầu tiên là thực thể.
  17. 8 Mục tiêu của ta cần thực hiện là trích xuất các thực thể. Nhiệm vụ này tương tự như nhận dạng thực thể được đặt tên (NER) trong khai thác thông tin [4-6]. Vì vậy, bản thân việc phân tích là một vấn đề. Sau khi trích xuất, chúng ta cũng cần phải phân lớp các thực thể được trích xuất. Trong văn bản ngôn ngữ tự nhiên, người ta thường viết cùng một thực thể theo những cách khác nhau. Ví dụ, Dialac 123 có thể được viết là Dia 123 và Dialac 123. Chúng ta cần nhận ra rằng tất cả chúng đều đề cập đến cùng một thực thể. Định nghĩa 2.4: Danh mục thực thể và biểu thức thực thể Một danh mục thực thể đại diện cho một thực thể duy nhất, trong khi một biểu thức thực thể là một từ thực tế hoặc cụm từ thực tế xuất hiện trong văn bản chỉ ra một danh mục thực thể. Mỗi danh mục thực thể (hoặc đơn giản là thực thể) phải có một tên duy nhất trong một ứng dụng cụ thể. Quá trình nhóm các biểu thức thực thể thành các loại thực thể được gọi là phân lớp thực thể. Định nghĩa 2.5: Danh mục khía cạnh và biểu thức khía cạnh Một danh mục khía cạnh của một thực thể đại diện cho một khía cạnh duy nhất của thực thể, trong khi một biểu thức khía cạnh là một từ hoặc cụm từ thực tế xuất hiện trong văn bản chỉ ra một loại khía cạnh. Mỗi danh mục khía cạnh (hoặc đơn giản là khía cạnh) cũng nên có một tên duy nhất trong một ứng dụng cụ thể. Quá trình nhóm các biểu thức khía cạnh thành các loại khía cạnh (khía cạnh) được gọi là phân lớp khía cạnh. Biểu thức khía cạnh thường là danh từ và cụm danh từ nhưng cũng có thể là động từ, cụm động từ, tính từ và trạng từ. Định nghĩa 2.6: Biểu thức khía cạnh tường minh Biểu thức khía cạnh là danh từ và cụm danh từ được gọi là biểu thức khía cạnh tường minh. Ví dụ: “mùi vị” trong “ Mùi vị của sữa Dialac 123 rất tuyệt vời” là một biểu thức khía cạnh tường minh Định nghĩa 2.7: Biểu thức khía cạnh không tường minh Các biểu thức khía cạnh không phải là danh từ hoặc cụm danh từ được gọi là biểu thức khía cạnh ngầm định. Ví dụ, khía cạch “kích thước” trong câu “hộp sữa này hơi nhỏ” là một khía
  18. 9 cạnh không tường minh. Vì đánh giá này không rõ người sử dụng đưa ra ý kiến là phù hợp hay không phù hợp. Thành phần thứ ba trong định nghĩa 2.3 là quan điểm. Nhiệm vụ này phân lớp quan điểm trên khía cạnh nào đó là tích cực, tiêu cực hay trung tính. Thành phần thứ tư và thành phần thứ năm lần lượt là người giữ ý kiến và thời gian. Chúng cũng cần được trích xuất và phân lớp đối với các thực thể và khía cạnh. Lưu ý rằng người có ý kiến (còn được gọi là nguồn quan điểm [16]) có thể là một cá nhân hoặc tổ chức đã bày tỏ một ý kiến. Đối với đánh giá sản phẩm và blog, người có ý kiến thường là tác giả của bài đăng. Người nắm giữ ý kiến quan trọng hơn đối với các bài báo vì họ thường nêu rõ cá nhân hoặc tổ chức đưa ra ý kiến. Tuy nhiên, trong một số trường hợp, việc xác định những người có quan điểm cũng có thể quan trọng trong phương tiện truyền thông xã hội, ví dụ: xác định ý kiến từ các nhà quảng cáo hoặc những người trích dẫn quảng cáo của các công ty. Dựa trên các thảo luận trên, chúng ta có thể xác định mô hình thực thể và mô hình tài liệu quan điểm [4,6]. Định nghĩa 2.8: Mô hình của thực thể Một thực thể ei được đại diện bởi chính nó như một tổng thể và một tập hợp hữu hạn các khía cạnh Ai = {ai1, ai2,…, ain}.; ei có thể được biểu diễn với bất kỳ một trong số hữu hạn các biểu thức thực thể của nó {eei1, eei2,…, eeis}. Mỗi khía cạnh aij ∈ Ai của thực thể ei có thể được thể hiện bằng bất kỳ một trong số các biểu thức khía cạnh hữu hạn của nó {aeij1, aeij2,…, aeijm}. Định nghĩa 2.9: Mô hình tài liệu quan điểm Một tài liệu quan điểm d chứa các quan điểm trên một tập hợp các thực thể {e1, e2,…, er} và một tập hợp con các khía cạnh của chúng từ một tập hợp những người có ý kiến {h1, h2,…, hp} tại một thời điểm cụ thể. Cuối cùng, để đưa ra được một bộ tài liệu quan điểm D, phân tích quan điểm bao gồm 6 nhiệm vụ [4] chính sau: Nhiệm vụ 1 (trích xuất và phân lớp thực thể): Trích xuất tất cả các biểu thức thực thể trong D và phân lớp hoặc nhóm các biểu thức thực thể đồng nghĩa thành các cụm thực thể (hoặc danh mục). Mỗi cụm biểu thức thực thể chỉ ra một ei thực thể duy nhất. Nhiệm vụ 2 (trích xuất và phân lớp khía cạnh): Trích xuất tất cả các biểu thức khía cạnh của các thực thể và phân lớp các biểu thức khía cạnh này thành các
  19. 10 cụm. Mỗi cụm biểu thức khía cạnh của thực thể ei đại diện cho một khía cạnh duy nhất aij. Nhiệm vụ 3 (trích xuất và phân lớp ý kiến): Trích xuất ý kiến cũ để lấy ý kiến từ văn bản hoặc dữ liệu có cấu trúc và phân lớp chúng. Nhiệm vụ tương tự với hai nhiệm vụ trên. Nhiệm vụ 4 (trích xuất và chuẩn hóa thời gian): Trích xuất các thời điểm mà các ý kiến được đưa ra và chuẩn hóa các định dạng thời gian khác nhau. Nhiệm vụ 5 (phân lớp quan điểm theo khía cạnh): Xác định xem một quan điểm trên một khía cạnh aij là tích cực, tiêu cực hay trung tính hoặc chỉ định xếp hạng quan điểm bằng số cho khía cạnh đó. Nhiệm vụ 6 (tạo nhóm ý kiến): Đưa ra tất cả các nhóm ý kiến (ei, aij, sijkl, hk, tl) được thể hiện trong tài liệu d dựa trên kết quả của các nhiệm vụ trên. 1.3. Những thách thức trong lĩnh vực phân tích quan điểm Bài toán về lĩnh vực phân tích quan điểm là một lĩnh vực thu hút nhiều sự quan tâm của các nhà nghiên cứu. Những kết quả nghiên cứu trong lĩnh vực này đã và đang áp dụng trong lĩnh vực công nghiệp nhằm mục đích phát triển các dịch vụ của mình. Tuy nhiên, bên đó, có một số thách thức phải đối mặt. Theo Tài liệu tham khảo [4,5,11,13,16], các kỹ thuật hiện tại chỉ là sơ khai để xác định và trích xuất các ý kiến và so sánh. Chủ yếu những thách thức này liên quan đến tính xác thực của dữ liệu được trích xuất và các phương pháp được sử dụng trong đó. Trong thực tế, các bình luận đánh giá hay quan điểm được đưa ra bởi những người khác nhau nên sẽ có phong cách viết khác nhau từ cách thức sử dụng ngôn ngữ, chữ viết tắt đến cách biểu đạt quan điểm. Mọi người đều không bày tỏ ý kiến theo cùng một cách. Một thách thức quan trọng trong bài toán phân tích quan điểm là quan điểm sẽ thay đổi theo thời gian. Tại thời điểm này một quan điểm về sản phẩm có thể là tốt nhất nhưng theo một thời gian sau nó không phải là tốt nhất nữa, người ta sẽ có nhiều sự lựa chọn hơn khi các sản phẩm mới tốt hơn về giá cả và chất lượng. Tuy nhiên, cũng có những sản phẩm ban đầu đưa ra ngoài thị trường chưa được tốt và đánh giá cao nhưng qua thời gian, quá trình cải thiện chất lượng của sản phẩm hoặc dịch vụ được người tiêu dùng đánh giá cao hơn. Ví dụ: Năm 2012 Iphone 5 được người tiêu dùng đánh giá là tích cực nhưng tại thời điểm này có những đánh giá tiêu cực vì có nhiều những dòng sản phẩm mới
  20. 11 đã ra đời. Độ mạnh của quan điểm là một trong những thách thức trong phân tích quan điểm để xác định các yếu tố quyết định sức mạnh của một ý kiến trong một bối cảnh nào đó. Bổ sung thêm việc phân lớp các từ thành các mức độ xu hướng quan điểm khác nhau, một số từ bổ nghĩa có thể được dùng để xác định độ mạnh của quan điểm (“rất”, “một chút”, “hết sức”, “hơi”,...). Cụm từ “rất hài lòng” và “hơi hài lòng” sẽ được phân lớp thành rất tích cực và kém tích cực nếu “rất” và “hơi” được phân tích và sử dụng để xác định mức độ đối lập. Một thách thức lớn trong phân tích quan điểm là các câu đánh giá có sự pha trộn đã xuất hiện khi mọi người thể hiện đánh giá hai quan điểm (tích cực và tiêu cực) trong cùng một câu. Mọi người có nhiều ý kiến khác nhau trong cùng một câu hay những bình luận mang quan điểm trung tính cũng có thể gây khó khăn để phân tích cú pháp hoặc phân tích quan điểm. Các câu mang quan điểm tích cực, tiêu cực hay trung tính đều quan trọng khi huấn luyện các mô hình phân tích quan điểm. Vì dữ liệu gắn thẻ yêu cầu các tiêu chí phải nhất quán, nên cần phải có một định nghĩa tốt về vấn đề xác định các văn bản trung tính như những văn bản khách quan không chứa tình cảm rõ ràng hay những lời chúc, những mong muốn (“tôi ước sản phẩm tốt hơn; “ tôi ước sữa này có nhiều chất dinh dưỡng”) là những câu khó phân loại. Ngày nay, xu hướng người tiêu dùng sử dụng dịch vụ hoặc mua sắm đã thay đổi so với các phương thức truyền thống. Việc tham khảo ý kiến, các đánh giá hay nhận xét ngày càng được nhận được sự quan tâm từ người tiêu dùng cũng như nhà sản xuất và các chuyên gia. Vì vậy, Nhiều người đã lợi dụng các yếu tố này nhằm trục lợi bằng cách đưa ra các nhận xét tốt cho sản phẩm của họ hoặc đưa ra các đánh giá xấu cho các sản phẩm của đối thủ. Những hoạt động này được gọi là giả mạo quan điểm hoặc lừa đảo [6] . Với sự phát triển mạnh mẽ của mạng xã hội, việc lan truyền thông tin ngày càng dễ dàng. Các bình luận có thể được chia sẻ một cách nhanh chóng và hầu như thiếu sự kiểm soát từ các cơ quan chức năng và các nhà quản lý mạng. Từ đó, các thông tin giả mạo các ý kiến đánh giá ngày càng trở nên tinh vi và khó kiểm soát, đây là một thách thức lớn đối với việc phát hiện chúng. Xử lý ngôn ngữ tự nhiên trong câu quan điểm: Các ý kiến mà mọi người bày tỏ trên các trang mạng xã hội thường viết theo ngôn ngữ tự nhiên, các đánh giá của người tiêu dùng cũng thường dùng các ngôn ngữ văn bản không chính thức và không theo quy tắc ngữ pháp, có thể họ viết tắt hoặc dùng các biểu tượng cảm
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2