intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Khai phá quan điểm và khai phá phương tiện xã hội: Chương 5 - PGS.TS. Hà Quang Thụy

Chia sẻ: Lavie Lavie | Ngày: | Loại File: PPT | Số trang:14

75
lượt xem
8
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng Khai phá quan điểm và khai phá phương tiện xã hội: Chương 5 - Xây dựng kho ngữ liệu quan điểm và tổng hợp quan điểm giới thiệu tới các bạn về tiếp cận kho ngữ liệu; tổng hợp quan điểm; tổng hợp tương phản; tổng hợp truyền thống và một số nội dung khác.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Khai phá quan điểm và khai phá phương tiện xã hội: Chương 5 - PGS.TS. Hà Quang Thụy

  1. BÀI GIẢNG KHAI PHÁ QUAN ĐIỂM VÀ KHAI PHÁ PHƯƠNG TIỆN XÃ HỘI CHƯƠNG 5. XÂY DỰNG KHO NGỮ LIỆU QUAN ĐIỂM VÀ TỔNG HỢP QUAN ĐIỂM PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI 1
  2. Nội dung 1. Giới thiệu tiếp cận kho ngữ liệu 2. Tiếp cận dựa trên từ điển 3. Tiếp cận dựa trên ngữ liệu 4. Sự kiện mong muốn và không mong muốn 5. Giới thiệu tổng hợp quan điểm 6. Tổng hợp quan điểm theo khía cạnh 7. Cải tiến tổng hợp quan điểm theo khía cạnh 8. Tổng hợp tương phản 9. Tổng hợp truyền thống 2
  3. 1. Tiếp cận từ vựng quan điểm  Đặt vấn đề  Từ quan điểm: từ đánh giá, từ phân cực, từ mang quan điểm.  Từ quan điểm tích cực: trạng thái, chất lượng mong muốn  Từ QĐ tiêu cực: trạng thái, chất lượng không mong muốn  Từ quan điểm đơn, cụm từ quan điểm, thành ngữ: Từ vựng quan điểm  Vai trò từ quan điểm  Phương pháp dựa trên từ vựng: Phân lớp quan điểm, phân lớp quan điểm câu và khai phá quan điểm mức khía cạnh  Phương pháp học máy: Cần các từ loại, có phân biệt từ quan điểm  Phân loại và xây dựng  Kiểu từ quan điểm tiếng Anh: cơ sở và so sánh  So sánh: so sánh và cực trị. Tốt hơn, tồi hơn, tốt nhất, tồi nhất… so sánh nhiều thực thể  Xây dựng : thủ công, dựa trên từ vựng, dựa trên kho ngữ liệu  Thủ công: kiếm tra cuối cùng, kết hợp các tiếp cận tự động 3
  4. 2. Tiếp cận dựa trên từ điển  Đặt vấn đề  Hầu hết các từ điển liệt kê các từ đồng nghĩa/trái nghĩa  Phương pháp chung  Sử dụng một vài từ hạt giống (seed) “mồi”  Loang (Boostraping) dựa trên cấu trúc đồng nghĩa/trái nghĩa của một từ điển  Nội dung  Phương pháp chung  (1) Thu thập bằng tay một tập nhỏ hạt giống các từ quan điểm (tích cực, tiêu cực)  (2) Sử dụng từ điển loang theo cấu trúc đồng nghĩa, trái nghĩa thêm vào danh sách hạt giống  (3) Lặp cho tới khi không tìm thấy từ mới  (4) Kiểm tra thủ công làm sạch danh sách  (5) Đưa độ đo cho mỗi từ quan điểm phát hiện được  Rất nhiều tiếp cận phức tạp hơn được đề xuất:  Xác định định hướng quan điểm bằng khoảng cách trong Wordnet  Tập hạt giống: tích cực, tiêu cực &trung lập. Trung lập chặn loang. Trọng số +1, -1, điều chỉnh trong quá trình loang 4
  5. 3. Tiếp cận dựa theo ngữ liệu miền  Giới thiệu chung  Cũng sử dụng tập dữ liệu hạt giống  Ngữ liệu miền thay cho từ điển  Ngữ liệu miền: tập các văn bản về miền ứng dụng  Gắn với miền ứng dụng  Từ vựng có tính “cục bộ”  Phương pháp  Tương tự như dựa trên từ điển  Hạt giống: tích cực, tiêu cực  Cấu trúc đồng nghĩa, trái nghĩa đoạn câu là danh sách các từ có chứa từ hạt giống  Độ giàu có của ngữ liệu  Rất nhiều phương pháp được đề xuất: hoạt động công phu hơn. 5
  6. Phương pháp dựa theo ngữ liệu miền 6
  7. 4. Sự kiện [không] mong muốn  Giới thiệu  Nhắc lại quy tắc quan điểm 21. P ::= sự_kiện_mong_muốn 22. N ::= sự_kiện_không_mong_muốn “Sau hai tuần hai người nằm trên đệm, một ngọn núi xuất hiện ở giữa” "Trong vòng một tháng, một thung lũng đã hình thành ở giữa nệm."  Zhang, Lei and Bing Liu (2011). Identifying noun product features that imply opinions. HLT’2011 (ACL-2011): 571-580  Quan sát  Bản thân khía cạnh thông thường “Âm thanh”, “Màn hình”, “Giá cả”… không là tích cực/tiêu cực”. Cần chỉ dẫn tích cực/tiêu cực: "chất lượng âm thanh tốt“, "chất lượng âm thanh xấu“.  Sự kiện (không) mong muốn chỉ theo một hướng tích cực (tiêu cực). Ví dụ, "Trong vòng một tháng, một thung lũng hình thành ở giữa nệm“ có biến dạng "Trong vòng một tháng, một thung lũng xấu hình thành ở giữa nệm“ song không thể biến dạng "Trong vòng một tháng, một thung lũng tốt hình thành ở giữa nệm“ 7
  8. Hai bước quá trình  Bước 1: Đoán nhận ứng viên  xác định bối cảnh quan điểm xung quanh mỗi danh từ khía cạnh. Một khía cạnh xuất hiện trong bối cảnh quan điểm tiêu cực (tích cực) thường xuyên hơn so với bối cảnh quan điểm tích cực (tiêu cực) cực của nó là tiêu cực (tích cực). Tạo một danh sách khía cạnh ứng viên quan điểm tích cực và một danh sách khía cạnh ứng viên quan điểm tiêu cực  Bước 2: Tỉa  “một danh từ khía cạnh được thay trực tiếp bởi cả từ quan điểm tích cực và tiêu cực, nó khó trở thành một từ khía cạnh quan điểm”. Hai quan hệ phụ thuộc trực tiếp.  Kiểu 1: O O-mô tả F: O phụ thuộc F thông qua O-mô tả: “Chiêc TV này có chất lượng ảnh tốt”.  Kiểu 2: O O-mô tả H F-mô tả F: O và F phụ thuộc vào H thông qua O-mô tả và F-mô tả. "lò xo của nệm là xấu“.  O: từ quan điểm, O-Dep/ F-Dep: mối quan hệ phụ thuộc. F: từ khía cạnh. H: bất kỳ từ nào.  Với VD1: “chất lượng ảnh” ~ đoán nhận “tốt”. VD2: “lò xo” ~ “xấu” (H: “là”). 8
  9. 5. Giới thiệu tổng hợp quan điểm  Tổng hợp quan điểm  Tính chất chủ qua không nên chỉ từ một người, cần quan điểm từ nhiều người tổng hợp quan điểm  Bộ 5 quan điểm (ei, aij, sijkl, hk, tl) và tổng hợp theo các bộ 5.  Tổng hợp quan điểm theo khía cạnh (đặc trưng)  Microsoft Bing và Google Product Search  Tổng hợp theo cấu trúc hay theo bản tóm tắt  Tổng hợp quan điểm: tóm tắt đa văn bản  Tóm tăt đa văn bản đặc biệt  tóm tắt văn bản truyền thống  Tóm tắt đơn văn bản truyền thống: chọn, chọn-tỉa-ghép  Tóm tắt đa văn bản truyền thống: tìm khác biệt và bỏ trùng lặp  Tổng hợp quan điểm ~ định nghĩa khái niệm  Có cấu trúc  Có định lượng 9
  10. 6. Tổng hợp quan điểm theo khía cạnh  Đặc trưng  Có hai đặc trưng chính:  “Bản chất của của quan điểm” là các mục tiêu quan điểm (thực thể và các khía cạnh) và quan điểm về các khía cạnh  “Định lượng” : cung cấp số lượng hay % số ý kiến đánh giá tích cực/tiêu cực. Định lượng là rất quan trọng  Có tính cấu trúc  Ví dụ tổng hợp quan điểm  Thống kê  Xem trang sau 10
  11. Tổng hợp quan điểm  Ví dụ Máy ảnh số 1: Khía cạnh: CHUNG Tích cực: 105 Phủ định: 12 Khía cạnh: Chất lượng hình ảnh Tích cực: 95 Phủ định: 10 Khía cạnh: Tuổi thọ pin Tích cực: 50 Phủ định: 9 11
  12. 7. Cải tiến tổng hợp QĐ theo khía cạnh  Đặt vấn đề  Tồn tại nhiều cải tiến và tinh chính  Kết hợp với tóm tắt đa văn bản: chọn câu và sinh câu Carenini, Giuseppe, Raymond Ng, and Adam Pauls. Multi-document summarization of evaluative text. EACL-2006 12
  13. 8. Tóm tắt tương phản  Tóm tắt tương phản  Cặp các ý kiến quan điểm tương pháo nhau.  "chất lượng âm thanh của iPhone là thực sự tốt”  " chất lượng âm thanh của iPhone của tôi là tệ hại. “  Paul, Michael J., ChengXiang Zhai, and Roxana Girju (2010). Summarizing Contrastive Viewpoints in Opinionated Text. EMNLP-2010.  Cặp hai câu quan điểm (x, y) được gọi là một cặp câu tương phản nếu x câu và y cùng nói về khía cạnh, nhưng định hướng quan điểm đối ngược nhau.  K câu được lựa chọn đại diện cho tích cực và tiêu cực. 13
  14. 9. Tổng hợp truyền thống  Tóm tắt truyền thống  Trích xuất câu để làm một văn bản ngắn  Wang, Dong and Yang Liu (2011). A pilot study of opinion summarization in conversations. ACL-2011  Tính hạng câu  sim (s, D): độ đo tương tự lời nói DA với mọi lời nói của chính người D  REL (s, topic):  sentiment (s): quan điểm trong lời nói s  length(s): độ dài của lời nói s: 14
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2