Luận văn Thạc sĩ Công nghệ thông tin: Phân lớp đa nhãn, đa thể hiện và áp dụng trong quản lý danh tiếng
lượt xem 3
download
Mục tiêu nghiên cứu của đề tài là hệ thống quản lý danh tiếng là một hệ thống quan trọng trong việc quản lý thương hiệu, đã được sử dụng rộng rãi trong nhiều công ty và tổ chức khác nhau. Đối với mỗi công ty hay sản phẩm, hệ thống quản lý danh tiếng tiến hành thu thập các nhận xét của người dùng, phân tích quan điểm trong những nhận xét đấy, và tạo ra một bản tổng kết quan điểm của người dùng về từng lớp đặc trưng của sản phẩm hay công ty. Tuy nhiên, trong một số nhận xét của người dùng thường có chứa nhiều nội dung, và đa phần là dữ liệu đa nhãn đa thể hiện. Vì vậy, vấn đề trọng tâm của hệ thống quản lý danh tiếng là việc xử lý dữ liệu đa nhãn đa thể hiện.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận văn Thạc sĩ Công nghệ thông tin: Phân lớp đa nhãn, đa thể hiện và áp dụng trong quản lý danh tiếng
- ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phan Thị Thơm PHÂN LỚP ĐA NHÃN, ĐA THỂ HIỆN VÀ ÁP DỤNG TRONG QUẢN LÝ DANH TIẾNG LUẬN VĂN THẠC SỸ HÀ NỘI - 2015
- ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phan Thị Thơm PHÂN LỚP ĐA NHÃN, ĐA THỂ HIỆN VÀ ÁP DỤNG TRONG QUẢN LÝ DANH TIẾNG Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Hà Quang Thụy HÀ NỘI – 2015
- Lời cảm ơn Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc tới Thầy giáo, PGS.TS Hà Quang Thụy đã tận tình chỉ bảo, hướng dẫn, động viên và giúp đỡ em trong suốt quá trình thực hiện đề tài luận văn. Em xin gửi lời cảm ơn sâu sắc tới các Thầy Cô trong Khoa Công nghệ thông tin đã truyền đạt kiến thức quý báu cho em trong sáu năm học vừa qua. Em cũng xin gửi lời cảm ơn tới các thầy cô, các anh chị, các bạn, các em sinh viên trong nhóm “Khai phá dữ liệu” phòng thí nghiệm KT-Sislab và đề tài cấp ĐHQGHN GQ.14.13 đã giúp em rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt luận văn. Con xin nói lên lòng biết ơn vô hạn đối với Cha Mẹ luôn là nguồn động viên, chăm sóc và khích lệ con trên mỗi bước đường học vấn. Cuối cùng, xin chân thành cảm ơn các Anh Chị và Bạn Bè, các thành viên lớp K53CB, K53CLC và K19HTTT đã ủng hộ, giúp đỡ tôi trong suốt thời gian tôi học tập trên giảng đường và thực hiện đề tài luận văn này. Tôi xin chân thành cảm ơn! Hà Nội, ngày 09 tháng 04 năm 2015 Học viên Phan Thị Thơm
- PHÂN LỚP ĐA NHÃN, ĐA THỂ HIỆN VÀ ÁP DỤNG TRONG QUẢN LÝ DANH TIẾNG Phan Thị Thơm Khóa K19HTTT, ngành công nghệ thông tin. Tóm tắt Luận văn: Hệ thống quản lý danh tiếng là một hệ thống quan trọng trong việc quản lý thương hiệu, đã được sử dụng rộng rãi trong nhiều công ty và tổ chức khác nhau. Đối với mỗi công ty hay sản phẩm, hệ thống quản lý danh tiếng tiến hành thu thập các nhận xét của người dùng, phân tích quan điểm trong những nhận xét đấy, và tạo ra một bản tổng kết quan điểm của người dùng về từng lớp đặc trưng của sản phẩm hay công ty. Tuy nhiên, trong một số nhận xét của người dùng thường có chứa nhiều nội dung, và đa phần là dữ liệu đa nhãn đa thể hiện. Vì vậy, vấn đề trọng tâm của hệ thống quản lý danh tiếng là việc xử lý dữ liệu đa nhãn đa thể hiện. Theo Zhou và cộng sự, 2012 [2], hướng tiếp cận để giải quyết bài toán phân lớp dữ liệu đa nhãn, đa thể hiện (MIML) là sử dụng phương pháp phân rã bài toán MIML thành những bài toán đơn giản. Trong đó các thuật toán học máy MIML được phát triển dựa trên các thuật toán học máy nền (SVM, Bayes, Boost,..) như MIMLSVM, MIML Bayes, MIMLBoost. Từ đây luận văn đề xuất một mô hình phân lớp quan điểm người dùng trong bài toán quản lý danh tiếng bằng cách áp dụng MIMLSVM. Thực nghiệm trên miền dữ liệu là tập nhận xét của người dùng về 1000 khách sạn ở Việt Nam ở website (http://chudu24.com ). Kết quả phân lớp khi áp dụng phương pháp phân lớp thông thường SVM là 84.84% và kết quả khi áp dụng mô hình phân lớp quan điểm luận văn đề xuất là 85.76%. Kết quả trên cho thấy phương pháp xây dựng mô hình phân lớp quan điểm áp dụng MIMLSVM là có tính hiệu quả cao.
- Lời cam đoan Tôi xin cam đoan mô hình phân lớp quan điểm người dùng trong bài toán quản lý danh tiếng bằng cách áp dụng MIMLSVM được trình bày trong luận văn này là do tôi thực hiện dưới sự hướng dẫn của PGS.TS Hà Quang Thụy. Tất cả những tham khảo từ các nghiên cứu liên quan đề được nêu nguồn gốc một các rõ ràng từ danh mục tài liệu tham khảo trong luận văn. Trong luận văn, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo. Hà Nội, ngày 09 tháng 04 năm 2015 Tác giả Phan Thị Thơm
- Mục lục Mở đầu ........................................................................... Error! Bookmark not defined. Chương 1: Giới thiệu chung về quản lý danh tiếng....... Error! Bookmark not defined. 1.1. Tổng quan về hệ thống quản lý danh tiếng ..... Error! Bookmark not defined. 1.1.1. Hệ thống quản lý danh tiếng ..................... Error! Bookmark not defined. 1.1.2. Tầm quan trọng của hệ thống quản lý danh tiếng .. Error! Bookmark not defined. 1.2. Bài toán phân lớp dữ liệu đa nhãn đa thể hiện trong quản lý danh tiếng Error! Bookmark not defined. Tổng kết chương một ................................................. Error! Bookmark not defined. Chương 2 : Tổng quan về phân lớp đa nhãn đa thể hiện MIML . Error! Bookmark not defined. 2.1. Phân lớp đa nhãn đa thể hiện ........................... Error! Bookmark not defined. 2.2. Phương pháp chuyển đổi bài toán học máy MIML ....... Error! Bookmark not defined. 2.2.1. MIMLSVM .................................................... Error! Bookmark not defined. 2.2.2. MIMLBOOST................................................ Error! Bookmark not defined. Tổng kết chương hai .................................................. Error! Bookmark not defined. Chương 3: Áp dụng phương pháp MIMLSVM trong bài toán quản lý danh tiếng ....................................................................................... Error! Bookmark not defined. 3.1. Mô tả phương pháp .......................................... Error! Bookmark not defined. 3.2. Mô hình đề xuất ............................................... Error! Bookmark not defined. 3.3. Pha 1: Huấn luyện mô hình .............................. Error! Bookmark not defined. 3.3.1. Tiền xử lý và xây dựng vector đặc trưng ...... Error! Bookmark not defined. 3.3.2. Chuyển đổi từ MIML thành SIML ................ Error! Bookmark not defined. 3.3.3. Chuyển đổi từ SIML thành SISL ................... Error! Bookmark not defined. 3.4. Pha 2: Phân lớp sử dụng mô hình huấn luyện . Error! Bookmark not defined. Tổng kết chương ba .................................................... Error! Bookmark not defined. Chương 4. Thực nghiệm và đánh giá ............................ Error! Bookmark not defined. 4.1. Môi trường và các công cụ sử dụng thực nghiệm.......... Error! Bookmark not defined. 4.1.1. Cấu hình phần cứng .................................. Error! Bookmark not defined.
- 4.1.2. Các phần mềm sử dụng ............................. Error! Bookmark not defined. 4.2. Xây dựng tập dữ liệu thử nghiệm .................... Error! Bookmark not defined. 4.3. Thử nghiệm ...................................................... Error! Bookmark not defined. 4.4. Kết quả thực nghiệm ........................................ Error! Bookmark not defined. 4.5. Đánh giá hệ thống ............................................ Error! Bookmark not defined. Kết luận ...................................................................... Error! Bookmark not defined. Tài liệu tham khảo .........................................................................................................11
- Danh sách hình vẽ Hình 1.1 : Sơ đồ phân loại danh tiếng ........................... Error! Bookmark not defined. Hình 1.2: Hai mô hình hệ thống .................................... Error! Bookmark not defined. Hình 1.2: Mô hình 3(a) và 3(b) trong thực tế ................ Error! Bookmark not defined. Hình 2.1: Dữ liệu đa nhãn đa thể hiện ........................... Error! Bookmark not defined. Hình 3.1: Mô hình đề xuất ............................................. Error! Bookmark not defined. Hình 3.2 : Bốn tập dữ liệu được tổ chức phân lớp theo chuyển đổi nhị phân ....... Error! Bookmark not defined. Hình 4.1: So sánh 2 thực nghiệm .................................. Error! Bookmark not defined.
- Danh sách bảng biểu Bảng 4.1. Cấu hình hệ thống thử nghiệm ...................... Error! Bookmark not defined. Bảng 4.2: Công cụ phần mềm sử dụng.......................... Error! Bookmark not defined. Bảng 4.3 : Tập dữ liệu thực nghiệm .............................. Error! Bookmark not defined. Bảng 4.4: Tập dữ liệu huấn luyện.................................. Error! Bookmark not defined. Bảng 4.5: Kết quả của thực nghiệm 1 ........................... Error! Bookmark not defined. Bảng 4.6: Kết quả thực nghiệm 2 .................................. Error! Bookmark not defined.
- Danh sách các từ viết tắt MIML Multi instance multi label SVM Support Vector Machine MISL Multi-instance, single-label learning SISL Single-instance single-label learning SIML Single-instance, multi-label learning MIMLSVM Multi instance multi label Support Vector Machine MIMLBOOST Multi instance multi label boost
- Tài liệu tham khảo [1] Pierce, J. “The world internet project report 2009”. Technical report, The World Internet Project, 2008. [2] Z.-H. Zhou, M.-L. Zhang, S.-J. Huang, and Y.-F. Li. “Multi-instance multi- label learning”. Artificial Intelligence, 2012, 176(1): 2291-2320. [3] Jianjun He, Hong Gu, Zhelong Wang (2012). “Bayesian multi-instance multi- label learning using Gaussian process prior”. Machine Learning, 88 (1-2): 273-295, July 2012. [4] Yao Wang. “Trust and Reputation Management in Decentralized Systems”. A Thesis Submitted to the College of Graduate Studies and Research, 2010. [5] Resnick P. and Zeckhauser R., “Trust among Strangers in Internet Transactions: Empirical Analysis of eBay’s Reputation System”. NBER Workshop on Empirical Studies of Electronic Commerce, 2000. [6] Bing Liu. “Opinion Mining & Summarization - Sentiment Analysis”, Tutorial given at WWW-2008, April 21, 2008 in Beijing. [7] Laudon, J. and Laudon, K. “Management Information Systems: Managing the Digital Firm & Multimedia”. Prentice Hall, 2007, 10th edition. [8] Stair, R. M., Reynolds, G. and Reynolds, G. W. “Principles of Information System”. Course Technology, 2010, 9th edition. [9] Hoffman, K., Zage, D. and Nita-Rotaru, C. “A survey of attack and defense techniques for reputation systems”. ACM Computing Surveys, 2009. 42(1), 1-31. [10] Zheng, W. and Jin, L. “Online reputation systems in web 2.0 era”. In Americas Conference on Information Systems (AMCIS) Proceedings, 2009. 296-306. [11] Grigorios Tsoumakas , Ioannis Katakis. “Multi-label Classification : An Overview”. International Journal of Data Warehousing & Mining, 3(3), 1-13, July- September 2007. [12] Fabrizio Sebastiani. “Machine Learning in Automated Text Categorization”. ACM Computing Survey, 34(1) pages 1-47, 2002. [13] Thi-Ngan Pham, Thi-Thom Phan, Phuoc-Thao Nguyen, Quang-Thuy Ha (2013)."Hidden Topic Models for Multi-label Review Classification: An Experimental Study", Computational Collective Intelligence. Technologies and Applications, Lecture Notes in Computer Science Volume 8083:603-611. 11
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Luận văn Thạc sĩ công nghệ thông tin: Ứng dụng mạng Nơron trong bài toán xác định lộ trình cho Robot
88 p | 702 | 147
-
Luận văn thạc sĩ Công nghệ Sinh học: Nghiên cứu mối quan hệ di truyền của một số giống ngô (Zea maysL.) bằng chỉ thị RAPD
89 p | 294 | 73
-
Luận văn thạc sĩ Công nghệ Sinh học: Nghiên cứu ảnh hưởng bổ sung tế bào và hormone lên sự phát triển của phôi lợn thụ tinh ống nghiệm
67 p | 277 | 50
-
Luận văn Thạc sĩ Công nghệ thông tin: Tối ưu hóa truy vấn trong hệ cơ sở dữ liệu phân tán
75 p | 58 | 9
-
Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng tính năng cảnh báo tấn công trên mã nguồn mở
72 p | 61 | 8
-
Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu phương pháp quản trị rủi ro hướng mục tiêu và thử nghiệm ứng dụng trong xây dựng cổng thông tin điện tử Bộ GTVT
75 p | 49 | 8
-
Luận văn Thạc sĩ Công nghệ thông tin: Phát triển hệ thống quảng cáo thông minh trên mạng xã hội
76 p | 61 | 8
-
Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng mô hình các chủ đề và công cụ tìm kiếm ngữ nghĩa
94 p | 34 | 6
-
Luận văn Thạc sĩ Công nghệ thông tin: Ứng dụng Gis phục vụ công tác quản lý cầu tại TP. Hồ Chí Minh
96 p | 46 | 5
-
Luận văn Thạc sĩ Công nghệ thông tin: Phương pháp phân vùng phân cấp trong khai thác tập phổ biến
69 p | 45 | 5
-
Luận văn Thạc sĩ Công nghệ thông tin: Khai thác tập mục lợi ích cao bảo toàn tính riêng tư
65 p | 45 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Khai thác luật phân lớp kết hợp trên cơ sở dữ liệu được cập nhật
60 p | 46 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Khai thác mẫu tuần tự nén
59 p | 30 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Sử dụng cây quyết định để phân loại dữ liệu nhiễu
70 p | 38 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Kỹ thuật Matrix Factorization trong xây dựng hệ tư vấn
74 p | 39 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Khai thác Top-rank K cho tập đánh trọng trên cơ sở dữ liệu có trọng số
64 p | 46 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng hệ truy vấn ngữ nghĩa đa cơ sở dữ liệu trong một lĩnh vực
85 p | 33 | 3
-
Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu và ứng dụng Hadoop để khai thác tập phổ biến
114 p | 46 | 3
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn