Giới thiệu tài liệu
Trong bối cảnh bùng nổ thông tin từ các nền tảng mạng xã hội, đặc biệt là Twitter, việc khai thác và hiểu rõ quan điểm người dùng trở nên vô cùng quan trọng. Tuy nhiên, đặc thù về độ ngắn gọn và tính phi cấu trúc của dữ liệu Twitter đặt ra nhiều thách thức cho bài toán khai phá quan điểm. Trích xuất khía cạnh là một nhiệm vụ then chốt trong lĩnh vực này, giúp cung cấp cái nhìn chi tiết và sâu sắc hơn về các đối tượng được đánh giá. Nghiên cứu này tập trung vào việc phát triển một mô hình hiệu quả cho việc trích xuất khía cạnh trong khai phá quan điểm trên dữ liệu Twitter. Mục tiêu là đề xuất một phương pháp sử dụng học máy CRFs kết hợp với mô hình chủ đề ẩn để tận dụng các đặc trưng ngôn ngữ phong phú và khối lượng lớn dữ liệu chưa được gán nhãn, từ đó cải thiện độ chính xác trong việc nhận diện các khía cạnh.
Đối tượng sử dụng
Các nhà nghiên cứu, sinh viên ngành Công nghệ thông tin chuyên sâu về xử lý ngôn ngữ tự nhiên, khai phá quan điểm, học máy và phân tích dữ liệu mạng xã hội.
Nội dung tóm tắt
Khóa luận này nghiên cứu bài toán trích xuất khía cạnh trong khai phá quan điểm từ dữ liệu mạng xã hội Twitter, một thách thức lớn do đặc thù ngắn gọn và tính phi cấu trúc của các tin nhắn. Tầm quan trọng của việc trích xuất khía cạnh được nhấn mạnh, vì nó cung cấp cái nhìn chi tiết hơn về đối tượng được đánh giá, vượt xa phân tích quan điểm tổng thể. Nghiên cứu tập trung vào các phương pháp trích xuất khía cạnh dựa trên học máy giám sát CRFs và mô hình chủ đề ẩn, hai hướng tiếp cận được đánh giá cao trong xử lý ngôn ngữ tự nhiên. Phương pháp đề xuất là một mô hình lai ghép, kết hợp sức mạnh của học máy CRFs với thông tin ngữ cảnh phong phú từ mô hình chủ đề ẩn. Mô hình này được thiết kế để tận dụng hiệu quả các đặc trưng ngôn ngữ tự nhiên như từ loại và quan hệ phụ thuộc, đồng thời khai thác lượng lớn dữ liệu không gán nhãn thông qua mô hình chủ đề. Điều này giúp cải thiện khả năng trích xuất các khía cạnh ít phổ biến. Các thử nghiệm trên dữ liệu sản phẩm iPhone5 và iPad đã chứng minh hiệu quả của mô hình, đạt độ đo F1 lên đến 80.18% khi sử dụng đầy đủ các đặc trưng, cho thấy đặc trưng từ mô hình 10 chủ đề ẩn có vai trò quan trọng. Kết quả này khẳng định tính đúng đắn của phương pháp và mở ra hướng phát triển cho việc khai thác dữ liệu quan điểm từ mạng xã hội.