Bài giảng Khai phá quan điểm và khai phá phương tiện xã hội: Chương 5 - PGS.TS. Hà Quang Thụy
lượt xem 8
download
Bài giảng Khai phá quan điểm và khai phá phương tiện xã hội: Chương 5 - Xây dựng kho ngữ liệu quan điểm và tổng hợp quan điểm giới thiệu tới các bạn về tiếp cận kho ngữ liệu; tổng hợp quan điểm; tổng hợp tương phản; tổng hợp truyền thống và một số nội dung khác.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Khai phá quan điểm và khai phá phương tiện xã hội: Chương 5 - PGS.TS. Hà Quang Thụy
- BÀI GIẢNG KHAI PHÁ QUAN ĐIỂM VÀ KHAI PHÁ PHƯƠNG TIỆN XÃ HỘI CHƯƠNG 5. XÂY DỰNG KHO NGỮ LIỆU QUAN ĐIỂM VÀ TỔNG HỢP QUAN ĐIỂM PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI 1
- Nội dung 1. Giới thiệu tiếp cận kho ngữ liệu 2. Tiếp cận dựa trên từ điển 3. Tiếp cận dựa trên ngữ liệu 4. Sự kiện mong muốn và không mong muốn 5. Giới thiệu tổng hợp quan điểm 6. Tổng hợp quan điểm theo khía cạnh 7. Cải tiến tổng hợp quan điểm theo khía cạnh 8. Tổng hợp tương phản 9. Tổng hợp truyền thống 2
- 1. Tiếp cận từ vựng quan điểm Đặt vấn đề Từ quan điểm: từ đánh giá, từ phân cực, từ mang quan điểm. Từ quan điểm tích cực: trạng thái, chất lượng mong muốn Từ QĐ tiêu cực: trạng thái, chất lượng không mong muốn Từ quan điểm đơn, cụm từ quan điểm, thành ngữ: Từ vựng quan điểm Vai trò từ quan điểm Phương pháp dựa trên từ vựng: Phân lớp quan điểm, phân lớp quan điểm câu và khai phá quan điểm mức khía cạnh Phương pháp học máy: Cần các từ loại, có phân biệt từ quan điểm Phân loại và xây dựng Kiểu từ quan điểm tiếng Anh: cơ sở và so sánh So sánh: so sánh và cực trị. Tốt hơn, tồi hơn, tốt nhất, tồi nhất… so sánh nhiều thực thể Xây dựng : thủ công, dựa trên từ vựng, dựa trên kho ngữ liệu Thủ công: kiếm tra cuối cùng, kết hợp các tiếp cận tự động 3
- 2. Tiếp cận dựa trên từ điển Đặt vấn đề Hầu hết các từ điển liệt kê các từ đồng nghĩa/trái nghĩa Phương pháp chung Sử dụng một vài từ hạt giống (seed) “mồi” Loang (Boostraping) dựa trên cấu trúc đồng nghĩa/trái nghĩa của một từ điển Nội dung Phương pháp chung (1) Thu thập bằng tay một tập nhỏ hạt giống các từ quan điểm (tích cực, tiêu cực) (2) Sử dụng từ điển loang theo cấu trúc đồng nghĩa, trái nghĩa thêm vào danh sách hạt giống (3) Lặp cho tới khi không tìm thấy từ mới (4) Kiểm tra thủ công làm sạch danh sách (5) Đưa độ đo cho mỗi từ quan điểm phát hiện được Rất nhiều tiếp cận phức tạp hơn được đề xuất: Xác định định hướng quan điểm bằng khoảng cách trong Wordnet Tập hạt giống: tích cực, tiêu cực &trung lập. Trung lập chặn loang. Trọng số +1, -1, điều chỉnh trong quá trình loang 4
- 3. Tiếp cận dựa theo ngữ liệu miền Giới thiệu chung Cũng sử dụng tập dữ liệu hạt giống Ngữ liệu miền thay cho từ điển Ngữ liệu miền: tập các văn bản về miền ứng dụng Gắn với miền ứng dụng Từ vựng có tính “cục bộ” Phương pháp Tương tự như dựa trên từ điển Hạt giống: tích cực, tiêu cực Cấu trúc đồng nghĩa, trái nghĩa đoạn câu là danh sách các từ có chứa từ hạt giống Độ giàu có của ngữ liệu Rất nhiều phương pháp được đề xuất: hoạt động công phu hơn. 5
- Phương pháp dựa theo ngữ liệu miền 6
- 4. Sự kiện [không] mong muốn Giới thiệu Nhắc lại quy tắc quan điểm 21. P ::= sự_kiện_mong_muốn 22. N ::= sự_kiện_không_mong_muốn “Sau hai tuần hai người nằm trên đệm, một ngọn núi xuất hiện ở giữa” "Trong vòng một tháng, một thung lũng đã hình thành ở giữa nệm." Zhang, Lei and Bing Liu (2011). Identifying noun product features that imply opinions. HLT’2011 (ACL-2011): 571-580 Quan sát Bản thân khía cạnh thông thường “Âm thanh”, “Màn hình”, “Giá cả”… không là tích cực/tiêu cực”. Cần chỉ dẫn tích cực/tiêu cực: "chất lượng âm thanh tốt“, "chất lượng âm thanh xấu“. Sự kiện (không) mong muốn chỉ theo một hướng tích cực (tiêu cực). Ví dụ, "Trong vòng một tháng, một thung lũng hình thành ở giữa nệm“ có biến dạng "Trong vòng một tháng, một thung lũng xấu hình thành ở giữa nệm“ song không thể biến dạng "Trong vòng một tháng, một thung lũng tốt hình thành ở giữa nệm“ 7
- Hai bước quá trình Bước 1: Đoán nhận ứng viên xác định bối cảnh quan điểm xung quanh mỗi danh từ khía cạnh. Một khía cạnh xuất hiện trong bối cảnh quan điểm tiêu cực (tích cực) thường xuyên hơn so với bối cảnh quan điểm tích cực (tiêu cực) cực của nó là tiêu cực (tích cực). Tạo một danh sách khía cạnh ứng viên quan điểm tích cực và một danh sách khía cạnh ứng viên quan điểm tiêu cực Bước 2: Tỉa “một danh từ khía cạnh được thay trực tiếp bởi cả từ quan điểm tích cực và tiêu cực, nó khó trở thành một từ khía cạnh quan điểm”. Hai quan hệ phụ thuộc trực tiếp. Kiểu 1: O O-mô tả F: O phụ thuộc F thông qua O-mô tả: “Chiêc TV này có chất lượng ảnh tốt”. Kiểu 2: O O-mô tả H F-mô tả F: O và F phụ thuộc vào H thông qua O-mô tả và F-mô tả. "lò xo của nệm là xấu“. O: từ quan điểm, O-Dep/ F-Dep: mối quan hệ phụ thuộc. F: từ khía cạnh. H: bất kỳ từ nào. Với VD1: “chất lượng ảnh” ~ đoán nhận “tốt”. VD2: “lò xo” ~ “xấu” (H: “là”). 8
- 5. Giới thiệu tổng hợp quan điểm Tổng hợp quan điểm Tính chất chủ qua không nên chỉ từ một người, cần quan điểm từ nhiều người tổng hợp quan điểm Bộ 5 quan điểm (ei, aij, sijkl, hk, tl) và tổng hợp theo các bộ 5. Tổng hợp quan điểm theo khía cạnh (đặc trưng) Microsoft Bing và Google Product Search Tổng hợp theo cấu trúc hay theo bản tóm tắt Tổng hợp quan điểm: tóm tắt đa văn bản Tóm tăt đa văn bản đặc biệt tóm tắt văn bản truyền thống Tóm tắt đơn văn bản truyền thống: chọn, chọn-tỉa-ghép Tóm tắt đa văn bản truyền thống: tìm khác biệt và bỏ trùng lặp Tổng hợp quan điểm ~ định nghĩa khái niệm Có cấu trúc Có định lượng 9
- 6. Tổng hợp quan điểm theo khía cạnh Đặc trưng Có hai đặc trưng chính: “Bản chất của của quan điểm” là các mục tiêu quan điểm (thực thể và các khía cạnh) và quan điểm về các khía cạnh “Định lượng” : cung cấp số lượng hay % số ý kiến đánh giá tích cực/tiêu cực. Định lượng là rất quan trọng Có tính cấu trúc Ví dụ tổng hợp quan điểm Thống kê Xem trang sau 10
- Tổng hợp quan điểm Ví dụ Máy ảnh số 1: Khía cạnh: CHUNG Tích cực: 105 Phủ định: 12 Khía cạnh: Chất lượng hình ảnh Tích cực: 95 Phủ định: 10 Khía cạnh: Tuổi thọ pin Tích cực: 50 Phủ định: 9 11
- 7. Cải tiến tổng hợp QĐ theo khía cạnh Đặt vấn đề Tồn tại nhiều cải tiến và tinh chính Kết hợp với tóm tắt đa văn bản: chọn câu và sinh câu Carenini, Giuseppe, Raymond Ng, and Adam Pauls. Multi-document summarization of evaluative text. EACL-2006 12
- 8. Tóm tắt tương phản Tóm tắt tương phản Cặp các ý kiến quan điểm tương pháo nhau. "chất lượng âm thanh của iPhone là thực sự tốt” " chất lượng âm thanh của iPhone của tôi là tệ hại. “ Paul, Michael J., ChengXiang Zhai, and Roxana Girju (2010). Summarizing Contrastive Viewpoints in Opinionated Text. EMNLP-2010. Cặp hai câu quan điểm (x, y) được gọi là một cặp câu tương phản nếu x câu và y cùng nói về khía cạnh, nhưng định hướng quan điểm đối ngược nhau. K câu được lựa chọn đại diện cho tích cực và tiêu cực. 13
- 9. Tổng hợp truyền thống Tóm tắt truyền thống Trích xuất câu để làm một văn bản ngắn Wang, Dong and Yang Liu (2011). A pilot study of opinion summarization in conversations. ACL-2011 Tính hạng câu sim (s, D): độ đo tương tự lời nói DA với mọi lời nói của chính người D REL (s, topic): sentiment (s): quan điểm trong lời nói s length(s): độ dài của lời nói s: 14
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Khai phá quan điểm và khai phá phương tiện xã hội: Giới thiệu môn học - PGS.TS. Hà Quang Thụy
9 p | 101 | 12
-
Bài giảng Khai phá quan điểm và khai phá phương tiện xã hội: Chương 1 - PGS.TS. Hà Quang Thụy
56 p | 88 | 11
-
Bài giảng Khai phá quan điểm và khai phá phương tiện xã hội: Chương 2 - PGS.TS. Hà Quang Thụy
10 p | 69 | 6
-
Bài giảng Khai phá web - Bài 3: Trực quan hóa dữ liệu
42 p | 21 | 6
-
Bài giảng Khai phá web - Bài 6: Khai phá quan điểm (Phần 2)
56 p | 19 | 6
-
Bài giảng Khai phá web - Bài 6: Khai phá quan điểm (Phần 3)
37 p | 17 | 5
-
Bài giảng Khai phá web - Bài 6: Khai phá quan điểm (Phần 1)
39 p | 28 | 4
-
Giải pháp tích hợp mạng xã hội trong xây dựng hệ trợ giảng thông minh
8 p | 46 | 3
-
Bài giảng Khai phá Web: Giới thiệu môn học - TS. Nguyễn Kiêm Hiếu
3 p | 93 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn