intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Khóa luận tốt nghiệp đại học: Làm giàu và lựa chọn đặc trưng trong phân lớp đa nhãn và áp dụng trong quản lý danh tiếng

Chia sẻ: Tưởng Tiểu Mễ | Ngày: | Loại File: PDF | Số trang:50

8
lượt xem
1
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Khóa luận "Làm giàu và lựa chọn đặc trưng trong phân lớp đa nhãn và áp dụng trong quản lý danh tiếng" nhằm tạo lập và lựa chọn tập đặc trưng dữ liệu có ý nghĩa rất quan trọng trong việc nâng cao hiệu quả của thuật toán phân lớp đa nhãn. Khóa luận đề xuất một mô hình kết hợp việc tạo lập đặc trưng dựa theo mô hình chủ đề Nn với giải pháp lựa chọn đặc trưng của Gomez-Verdejo và Michel Verleysen, 2007. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Khóa luận tốt nghiệp đại học: Làm giàu và lựa chọn đặc trưng trong phân lớp đa nhãn và áp dụng trong quản lý danh tiếng

  1. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phan Thị Thơm LÀM GIÀU VÀ LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP ĐA NHÃN VÀ ÁP DỤNG TRONG QUẢN LÝ DANH TIẾNG KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành:Công nghệ thông tin HÀ NỘI - 2012
  2. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phan Thị Thơm LÀM GIÀU VÀ LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP ĐA NHÃN VÀ ÁP DỤNG TRONG QUẢN LÝ DANH TIẾNG KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành:Công Nghệ Thông Tin Cán bộ hướng dẫn: PGS.TS. Hà Quang Thụy Cán bộ đồng hướng dẫn: ThS. Trần Mai Vũ HÀ NỘI - 2012
  3. VIETNAMNATIONALUNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY Thom Phan Thi FEATURES ENRICHING AND SELECTING IN MULTI-LABEL CLASSIFICATION IN REPUTATION MANAGEMENT Major: Information of Technology Supervisor:Assoc. Prof. Thuy Ha Quang Co-Supervisor:MSC. Vu Tran Mai HA NOI, 2012
  4. Lời cảm ơn Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc tới Thầy giáo, PGS.TS Hà Quang Thụy và Thạc sỹ Trần Mai Vũ đã tận tình chỉ bảo, hướng dẫn, động viên và giúp đỡ em trong suốt quá trình thực hiện đề tài khóa luận. Em xin gửi lời cảm ơn sâu sắc tới các Thầy Cô trong Khoa Công nghệ thông tin đã truyền đạt kiến thức quý báu cho em trong bốn năm học vừa qua. Em cũng xin gửi lời cảm ơn tới các thầy cô, các anh chị, các bạn và các em sinh viên trong phòng thí nghiệm KT-Sislab đã giúp em rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khóa luận. Con xin nói lên lòng biết ơn vô hạn đối với Cha Mẹ luôn là nguồn động viên, chăm sóc và khích lệ con trên mỗi bước đường học vấn. Cuối cùng, xin chân thành cảm ơn các Anh Chị và Bạn Bè, các thành viên lớp K53CB, K53CLC và đặc biệt là các thành viên của phòng 420C-KTX Ngoại Ngữ đã ủng hộ, giúp đỡ tôi trong suốt thời gian tôi học tập trên giảng đường đại học và thực hiện đề tài khóa luận này. Tôi xin chân thành cảm ơn! Hà Nội, ngày 15 tháng 05 năm 2012 Sinh viên Phan Thị Thơm
  5. LÀM GIÀU VÀ LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP ĐA NHÃN VÀ ÁP DỤNG TRONG QUẢN LÝ DANH TIẾNG Phan Thị Thơm Khóa QH-2008-I/CQ, ngành công nghệ thông tin. Tóm tắt Khóa luận tốt nghiệp: Hệ thống quản lý danh tiếng là một chủ đề khoa học công nghệ thu hút sự quan tâm trên thế giới. Hệ thống quản lý danh tiếng tiến hành thu thập ý kiến nhận xét của người dùng, phân tích quan điểm trong những nhận xét đấy, và tạo ra một bản tổng kết quan điểm cung cấp cho người dùng và công ty. Nhận xét của người dùng thường đề cập tới nhiều khía cạnh của công ty sản phNm nên chúng là những dữ liệu đa nhãn. Vì vậy, một trong các vấn đề trọng tâm của hệ thống quản lý danh tiếng là việc xử lý dữ liệu đa nhãn. Bài toán phân lớp dữ liệu đa nhãn có đặc điểm là số lượng đặc trưng lớn [2]. Việc tạo lập và lựa chọn tập đặc trưng dữ liệu có ý nghĩa rất quan trọng trong việc nâng cao hiệu quả của thuật toán phân lớp đa nhãn. Khóa luận đề xuất một mô hình kết hợp việc tạo lập đặc trưng dựa theo mô hình chủ đề Nn với giải pháp lựa chọn đặc trưng của Gomez-Verdejo và Michel Verleysen, 2007 [3]. Khóa luận thi hành thực nghiệm trên miền dữ liệu là tập nhận xét của người dùng về 1000 khách sạn ở Việt Nam ở website (http://chudu24.com ). Kết quả thu được cho thấy giải pháp kết hợp đặc trưng đã cải thiện kết quả phân lớp đa nhãn. Từ khóa : reputation management, multi-label, classification, feature selection.
  6. FEATURES ENRICHING AND SELECTINGIN MULTI-LABEL CLASSIFICATION IN REPUTATION MANAGEMENT Thom Phan Thi QH-2008-I/CQ course, information technology faculty Abtract thesis: From the late 20th century, the reputation systems have been commonly adopted by Internet companies. For each companies or products, the reputation management crawled customer’s reviews. Then they found the opinion customers in there and constructed the report about opinion customers in features products or features companies. However, some customer review may belong to more than one class, almost them is multi-label data. So the importation problem in reputation management is classification multi-label. According to Guyon and Elisseeff, 2003 [2], feature selection is an important task in classification multi-label, as it can improve the interpretability of the problems, together with performances and learning time of prediction algorithms. Based on the methodology of Vanessa Gomez-Verdejo and Michel Verleysen, 2007 [3], we are given a methodology, which used features in hidden topic model and used mutual information to achieve feature selection in multi-label classification problems. We used the customer’s reviews about 1000 hotels in Viet Nam in website (http://chudu24.com ). Result on this database clearly demonstrate the interest of the approach which allows one to sharply reduce the dimension of the problem and to enhance the performance of classifiers. Keywords: reputation management, multi-label, classification, feature selection.
  7. Lời cam đoan Tôi xin cam đoan giải pháp làm giàu đặc trưng chủ đề Nn LDA và phương pháp lựa chọn đặc trưng dựa trên độ tương hỗ MI được trình bày trong khóa luận này là do tôi thực hiện dưới sự hướng dẫn của PGS.TS Hà Quang Thụy và Thạc sỹ Trần Mai Vũ. Tất cả những tham khảo từ các nghiên cứu liên quan đề được nêu nguồn gốc một các rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo. Hà Nội, ngày 15 tháng 05 năm 2012 Tác giả Phan Thị Thơm
  8. Mục lục MỞ ĐẦU ..................................................................................................................... 1 CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ QUẢN LÝ DANH TIẾNG .......................... 3 1.1. Danh tiếng và các khái niệm liên quan ............................................................ 3 1.2. Giới thiệu chung về hệ thống quản lý danh tiếng ............................................ 4 1.2.1. Sơ bộ về hệ thống quản lý danh tiếng ....................................................... 4 1.2.3. Tầm quan trọng của hệ thống quản lý danh tiếng ..................................... 6 1.3. Phân lớp dữ liệu đa nhãn và bài toán lựa chọn đặc trưng................................. 7 Kết luận chương một ................................................................................................... 9 CHƯƠNG 2. PHƯƠNG PHÁP LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP ĐA NHÃN VÀ MÔ HÌNH CHỦ ĐỀ ẨN LDA ................................................................ 10 2.1. Phương pháp lựa chọn đặc trưng sử dụng độ tương hỗ (MI) ......................... 10 2.1.1. Bài toán lựa chọn đặc trưng ................................................................... 10 2.1.2. Phương pháp lựa chọn đặc trưng dựa vào độ tương hỗ (MI).................. 11 2.1.2.1. Độ tương hỗ MI ............................................................................... 11 2.1.2.2. Phương pháp thực hiện.................................................................... 11 2.1.2.3. Cách đánh giá ................................................................................. 12 2.2. Mô hình chủ đề Nn ........................................................................................ 12 2.2.1. Mô hình sinh trong LDA......................................................................... 14 2.2.2. Ước lượng tham số và suy luận .............................................................. 15 Kết luận chương hai ................................................................................................... 16 CHƯƠNG 3. PHƯƠNG PHÁP LÀM GIÀU VÀ LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP ĐA NHÃN ............................................................................................. 17 3.1. Mô tả phương pháp....................................................................................... 17 3.2. Mô hình đề xuất ............................................................................................ 18 3.3. Pha 1. Huấn luyện mô hình ........................................................................... 19 3.3.1. Xây dựng tập đặc trưng bổ xung từ mô hình chủ đề n LDA .................. 19 3.3.2. Xây dựng vector đặc trưng ..................................................................... 20 3.3.3. Lựa chọn đặc trưng ................................................................................ 21 3.3.4. Phân lớp đa nhãn ................................................................................... 22 3.4. Pha 2. Phân lớp sử dụng mô hình huấn luyện ................................................ 23
  9. 3.4.1. Tiền xử lý dữ liệu ................................................................................... 23 3.4.2. Lựa chọn đặc trưng ................................................................................ 24 3.4.3. Đánh giá độ chính xác của hệ thống ...................................................... 24 Kết luận chương ba .................................................................................................... 26 CHƯƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ ....................................................... 27 4.1. Môi trường và các cộng cụ sử dụng thực nghiệm .......................................... 27 4.1.1. Cấu hình phần cứng ............................................................................... 27 4.1.2. Các phần mềm sử dụng .......................................................................... 28 4.2. Xây dựng tập dữ liệu thử nghiệm .................................................................. 28 4.3. Thử nghiệm .................................................................................................. 30 4.4. Kết quả thực nghiệm ..................................................................................... 31 4.5. Đánh giá hệ thống......................................................................................... 35 Kết luận ..................................................................................................................... 36 Tài liệu tham khảo ..................................................................................................... 37
  10. Danh sách hình vẽ Hình 1.1 : Sơ đồ phân loại danh tiếng .......................................................................... 3 Hình 1.2: (a) Hệ thống Vật giá, (b) Hệ thống Swooti; .................................................. 5 (c,d) Hệ thống zoominfo: Giao diện (c); kiến trúc thành phần hệ thống (d) .................. 5 Hình 1.3 : Hai kiểu mô hình hệ thống quản lý danh tiếng [4, 25] ................................. 6 Hình 2.1: Mô hình biểu diễn của LDA ....................................................................... 14 Hình 3.1: Mô hình đề xuất ......................................................................................... 18 Hình 3.2 : Bốn tập dữ liệu được tổ chức phân lớp theo chuyển đổi nhị phân .............. 22 Hình 4.1: So sánh kết quả thực nghiệm 1 và thực nghiệm 2 ....................................... 33 Hình 4.2: So sánh 4 thực nghiệm ............................................................................... 34
  11. Danh sách bảng biểu Bảng 3.1: Ví dụ về kết quả của mô hình chủ đề Nn cho tài liệu t................................. 19 Bảng 3.2: Bảng ký hiệu.............................................................................................. 25 Bảng 4.1. Cấu hình hệ thống thử nghiệm ................................................................... 27 Bảng 4.2: Công cụ phần mềm sử dụng ....................................................................... 28 Bảng 4.3 : Tập dữ liệu thực nghiệm ........................................................................... 29 Bảng 4.4: Tập dữ liệu huấn luyện .............................................................................. 29 Bảng 4.5: Tập dữ liệu cho mô hình chủ đề Nn ............................................................ 30 Bảng 4.6: Kết quả của thực nghiệm 1 ........................................................................ 31 Bảng 4.7: Kết quả thực nghiệm 2 với số chủ đề là 15................................................. 32 Bảng 4.8: Kết quả thực nghiệm 2 với số chủ đề là 20................................................. 32 Bảng 4.9: Kết quả thực nghiệm 2 với số chủ đề là 25................................................. 32 Bảng 4.10: Kết quả thực nghiệm 3 ............................................................................. 33 Bảng 4.11: Kết quả thực nghiệm 4 ............................................................................. 34
  12. Danh sách các từ viết tắt BR Binary Relevance IDF Inverse Document Frequency MI Mutual Information LDA Latent Dirichlet Allocation LP Label Powerset PLSA Probabilistic Latent Semantic Analysis PPT Pruned Problem Transformation TF Term Frequencies SVM Support Vector Machine
  13. MỞ ĐẦU Danh tiếng của tổ chức là một tài sản có giá trị ngày càng cao. Ngày nay, Internet là kênh thông tin quan trọng chuyển tải danh tiếng của tổ chức tới cộng đồng xã hội. Theo như First World Internet Report (Pierce, 2008) [1], chỉ ra rằng hơn hai phần ba người dùng Internet coi đây là nguồn thông tin quan trọng. Tuy nhiên, lượng thông tin trên Internet đang ngày một lớn hơn và gây khó khăn cho người sử dụng khi tìm các thông tin đánh giá một công ty hay một sản phNm. Vì thế, hệ thống quản lý danh tiếng là một trong những cách tốt nhất để giải quyết vấn đề này. Hệ thống quản lý danh tiếng chủ yếu là tổng hợp dựa trên ý kiến của người dùng. Vì thế, vấn đề mấu chốt của bài toán quản lý danh tiếng là việc phân loại dữ liệu đa nhãn. Theo nghiên cứu của Guyon và Elisseeff, 2003 [2], việc lựa chọn đặc trưng hiệu quả có thể cải tiến đáng kể chất lượng của bộ phân lớp. Trong khóa luận này, chúng tôi sử dụng phương pháp lựa chọn đặc trưng của Vanessa Gomez-Verdejo và Michel Verleysen, 2007 [3]. Chúng tôi đề xuất một phương pháp xây dựng tập đặc trưng cho việc phân lớp câu quan điểm trong bài toán quản lý danh tiếng. Theo đó, chúng tôi áp dụng đặc trưng mô hình chủ đề Nn LDA kết hợp với lựa chọn đặc trưng dựa vào độ tương hỗ (MI). Phương pháp phân lớp Maximum Entropy được lựa chọn vì phương pháp này phù hợp với việc phân lớp dữ liệu có nhiều đặc trưng. Nội dung của khóa luận được chia thành các chương như sau : Chương 1: Giới thiệu khái quát về quản lý danh tiếng, hệ thống quản lý danh tiếng và tầm quan trọng của hệ thống này trong thực tế. Sau đó, khóa luận còn trình bày về tầm quan trọng của việc xử lý dữ liệu đa nhãn trong hệ thống quản lý danh tiếng, tầm quan trọng của việc lựa chọn đặc trưng. Chương 2 : Trình bày về bài toán lựa chọn đặc trưng trong việc phân lớp dữ liệu đa nhãn cùng một số nghiên cứu liên quan. Ngoài ra, khóa luận còn trình bày về phương pháp mô hình chủ đề Nn LDA và giải pháp do khóa luận đề xuất. Chương 3 : Khóa luận đề xuất phương pháp xây dựng tập đặc trưng dựa vào việc bổ xung đặc trưng thu được từ mô hình chủ đề Nn LDA kết hợp với phương pháp lựachọn đặc trưng dựa vào độ tưng hỗ(MI) trên miền dữ liệu Tiếng Việt. Đồng thời, khóa luận cũng trình bày chi tiết các pha cũng như các bước trong mô hình. 1
  14. Chương 4 : Khóa luận trình bày một số thực nghiệm trong việc áp dụng phương pháp xây dựng tập đặc trưng mà khóa luận đề xuất. Từ đó, khóa luận sử dụng để đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam. Phần kết luận : Tóm lược kết quả đạt được của khóa luận và định hướng phát triển tương lai. 2
  15. CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ QUẢN LÝ DANH TIẾNG 1.1. Danh tiếng và các khái niệm liên quan Theo như Từ điển Oxford(1992) thì danh tiếng được định nghĩa “là các ước lượng chung của con người về các phương diện đặc tính hoặc ph m chất ; nó gần như là sự yêu quý hay tin tưởng vào một người hay một tổ chức”. Danh tiếng được coi như là một đặc tính hoặc một thuộc tính của con người hay một tổ chức được hình thành nhờ hành vi trong quá khứ. Theo Lik Mui, 2002 [5], danh tiếng được phân loại dựa vào nguồn gốc xây dựng như sơ đồ sau: Hình 1.1 : Sơ đồ phân loại danh tiếng Trong sơ đồ trên, một số loại danh tiếng có trong các hộp bóng mờ là (i) danh tiếng của nhóm (group reputation), (ii) danh tiếng quan sát được (observed reputation), (iii) danh tiếng từ nguồn nhóm (group-derived) có tính “xã hội hóa” đối với chủ thể và khách thể (nơi nhận danh tiếng hoặc nguồn tạo ra danh tiếng) là đối ngẫu với tính “cá nhân hóa” trong các loại danh tiếng còn lại. Trong sơ đồ phân loại danh tiếng trên đây, ở mức cao nhất cho thấy danh tiếng gồm danh tiếng cá nhân và danh tiếng nhóm cá nhân.Danh tiếng nhóm cá nhân (công ty) được xác định theo một mô hình tích hợp danh tiếng cá nhân của tập thành viên trong nhóm (mô hình trung bình, mô hình phân cấp, các mô hình tích hợp khác [5]).Danh tiếng cá nhân có thể phân chia theo hai loại là: • Danh tiếng thu được từ những thông tin trực tiếp như : sự đánh giá của những người là đồng nghiệp của nhau, … 3
  16. • Danh tiếng thu được từ những thông tin gián tiếp như : s uy tín của ng ư sự nhóm mà cá nhân đó tham gia, các thông tin thu thập t lời truyền p từ miệng, … 1.2. Giới thiệu chung về hệ thống quản lý danh tiếng u 1.2.1. Sơ bộ về hệ thống quản lý danh tiếng th Một trong những lợi thế lớn nhất mà Internet mang lại cho ngư dùng là làm i th i người giảm chi phí thời gian công s trong việc tìm kiếm, thu thập thông tin. Hàng ngày, i sức p hàng giờ, Internet luôn có hàng triệu người giao tiếp và chia sẻ các ý ki cũng như , tri kiến kinh nghiệm với nhau. Tận dụng lợi thế này, hệ thống quản lý danh ti nd n tiếng làm nhiệm vụ thu thập ý kiến của ngườ dùng về sản phNm và các sự kiện, thông tin v uy tín của ời n, về sản phNm, … Sau đó tổng hợp thông tin này và công bố với mọi ngư Mọi người ng h i người. dùng khác có thể sử dụng thông tin mà h thống quản lý danh tiếng mang l như một ng hệ ng lại tài liệu tham khảo để đưa ra quyết định. quy (a) (b) 4
  17. (c) (d) Hình 1.2: (a) Hệ thống Vật giá, (b) Hệ thống Swooti; (c,d) Hệ thống zoominfo: Giao diện (c); kiến trúc thành phần hệ thống (d) 1.2.2. Mô hình của hệ thống quản lý danh tiếng Theo Liu Ling (2011, [4]), mô hình hệ thống quản lý danh tiếng được xây dựng từ mô hình hệ thống thông tin song đi theo hai hướng tiếp cận có hoặc không có thành phần phản hồi.. J. Laudon và K. Laudon (2007, [13]), Stair và cộng sự (2010, [14]) đề nghị hệ thống quản lý danh tiếng được xây dựng như một hệ thống thông tin bao gồm bốn thành phần: Đầu vào, Xử lý, Đầu ra và Phản hồi người dùng như hình 3(a). Trong khi đó, Hoffman và cộng sự (2009, [15]), Zheng và Jin (2009, [16]), Swamynathan và cộng sự (2010, [24]) coi rằng hệ thống danh tiếng bao gồm ba thành phần: Thu thập thông tin, Xử lý thông tin và Hiển thị kết quả người dùng như hình 3(b). (a) Mô hình kiểu Hệ thống thông tin [4] (b) Mô hình kiểu ba thành phần [4] 5
  18. (c) Một mô hình năm thành phần [25] Hình 1.3 : Hai kiểu mô hình hệ thống quản lý danh tiếng [4, 25] Thành phần Phản hồi người dùng là rất quan trọng trong hệ thống danh tiếng, và vì vậy, mô hình ba thành phần có một khiếm khuyết là thiếu vắng thành phần này. Tuy nhiên, trong nhiều trường hợp, mô hình ba thành phần cho một thiết kế đơn giản, dễ thi hành. Liu Ling [4] nhận định rằng cả hai mô hình nói trên còn thiếu một thành phần quan trọng là Thành phần lưu trữ và tác giả cho rằng đây cũng là một thiếu sót lớn theo phương diện thiết kế hệ thống. Liu Ling đề nghị mô hình thiết kế hệ thống quản lý danh tiếng gồm năm thành phần như thể hiện ở Hình 2(c). Khóa luận này cũng tiếp cận theo mô hình ba, trong đó tập trung chủ yếu vào phần xử thông tin, đặc biệt là phần xử lý thông tin đa nhãn. Khóa luận đề xuất giải pháp xây dựng tập đặc trưng bằng cách kết hợp đặc trưng mô hình chủ đề Nn và phương pháp lựa chọn đặc trưng dựa vào độ tương hỗ. 1.2.3. Tầm quan trọng của hệ thống quản lý danh tiếng Trong cuộc sống, danh tiếng công ty, sản phNm đóng một vai trò vô cùng quan trọng. Đối với người tiêu dùng, danh tiếng giúp họ có được những lựa chọn hợp lý trong cuộc sống. Ví dụ như: trong trường hợp một người cần tìm gia sư tốt để dạy con 6
  19. cái họ, họ sẽ nhờ bạn bè và người thân giới thiệu hay cho kinh nghiệm. Và kinh nghiệm trên chính là danh tiếng về gia sư. Đối với bản thân doanh nghiệp, danh tiếng càng có tầm quan trọng lớn hơn. Việc quản lý danh tiếng là quá trình theo dõi thương hiệu và phản ứng khi có những phản hồi tiêu cực về công ty đang quản lý. Từ đó, công ty có thể tránh đươc những thảm họa tiềm Nn như: ai đó nêu tên công ty trong một bài viết có tính chất xuyên tạc. Ngoài khả năng phòng vệ, việc làm này còn giúp công ty có thể tham gia và những cuộc thảo luận xoay quanh các vấn đề của doanh nghiệp, từ đó giúp quảng bá hình ảnh công ty ra bên ngoài hiều hơn. Trong xã hội hiện nay, sự cạnh tranh về danh tiếng đóng một vai trò vô cùng quan trọng. Dù muốn hay không thì bất kỳ cá nhân, công ty hay tổ chức nào cũng phải xây dựng và phát triển danh tiếng dựa trên nhận thức của công chúng về danh tiếng đó. Người ta phải mất nhiều năm tháng để xây dựng danh tiếng, nhưng có thể hủy hoại nó chỉ trong chốc nát. Công ty Enron, ngành công nghiệp kế toán kiểm toán sau vụ Andersen, Wall Street,… là những ví dụ nổi bật. Với danh tiếng tốt của doanh nghiệp sẽ thu hút khách hàng, nhà đầu tư và các nhân viên tài năng, dẫn đến lợi nhuận cao. Sự thành công của eBay [5], một trang web bán hàng rất phổ biến đã là ví dụ điển hình cho thấy tầm quan trọng to lớn của danh tiếng, các giá trị uy tín của người bán và người mua được đo và xếp hạng theo điểm số (tích cực, tiêu cực và trung lập). Nghiên cứu của Resnich và Zeckhauser [6] đã chỉ ra rằng trên eBay 89% trong số 168.680 giao dịch xảy ra giữa người bán và người mua gặp nhau lần đầu tiên. Và hầu như tất cả (98.9%) xảy ra giữa những người đã tiến hành giao dịch không quá bốn lần. Các thống kê trên chỉ ra rằng, hầu hết giao dịch trên eBay là giao dịch giữa những người không quen biết và danh tiếng là yếu tố quyết định của những giao dịch này. Như đã nói ở trên, quản lý danh tiếng là làm nhiệm vụ thu thập ý kiến của người dùng về sản phNm và các sự kiện, thông tin về uy tín của sản phNm, … sau đó tổng hợp thông tin này và công bố với mọi người. Như vậy, quản lý danh tiếng được coi là tầng trên của khai phá quan điểm và bài toán phân lớp quan điểm được coi là bài toán trọng tâm của quản lý danh tiếng. 1.3. Phân lớp dữ liệu đa nhãn và bài toán lựa chọn đặc trưng Hầu hết các ứng dụng của phân lớp phân cấp văn bản là bài toán đa nhãn, có nghĩa là một văn bản hay câu có thể được gán vào nhiều hơn một lớp. Ví dụ, một câu 7
  20. quan điểm của khách hàng nhận xét về khách sạn như “Khách sạn rất đẹp, thoáng và có nhiều đồ ăn ngon” có thể thuộc lớp “Chất lượng phòng, khách sạn” hoặc “Chất lượng đồ ăn”. Phân lớp dữ liệu đa nhãn là nhiệm vụ phân loại tài liệu trong đó mỗi tài liệu có thể đồng thời thuộc vào nhiều nhãn khác nhau. Dữ liệu đa nhãn thường được gặp trong thực tế hơn dữ liệu đơn nhãn vì dữ liệu đơn nhãn được quy định chỉ thuộc vào một nhãn cố định. Xét một ví dụ về phân lớp dữ liệu văn bản như : một bài báo về nghị định Kyoto, bài báo này có thể được gán nhãn là chính trị hoặc môi trường. Một ví dụ khác như, một bức ảnh có thể thuộc về nhiều nhãn khác nhau như bãi biển, núi, du lịch,.. Do tầm quan trọng của dữ liệu đa nhãn, bài toán phân lớp dữ liệu đa nhãn đã được nghiên cứu khá rộng rãi từ vài năm gần đây và dẫn tới sự phát triển của rất nhiều thuật toán phân lớp. Một trong số những phương pháp mở rộng để phân loại dữ liệu đa nhãn điển hình như AdaBoost [8], học máy hỗ trợ (SVM) [9] hoặc K-láng giềng gần nhất [10], … Một trong những cách tiếp cận phổ biến của phân lớp dữ liệu đa nhãn là thực hiện các chuyển đổi về phân lớp dữ liệu đơn nhãn. Sau đó, có thể sử dụng trực tiếp các thuật toán học máy để phân loại dữ liệu đơn nhãn. Theo [11], phương pháp chuyển đổi đơn giản nhất là phương pháp chuyển đổi nhị phân (BR), tức là với mỗi nhãn khác nhau sẽ được xây dựng một bộ phân lớp khác nhau. Nói cách khác, tức là việc chuyển đổi phân lớp dữ liệu C nhãn thành C bộ phân lớp cho mỗi nhãn. Phương pháp Label Powerset (LP) là một phương pháp chuyển đổi của phân lớp dữ liệu đa nhãn mà có xem xét đến sự phụ thuộc của các nhãn lớp. Ý tưởng của phương pháp này là coi một tập con các nhãn như là một nhãn và tiến hành phân lớp như việc phân lớp dữ liệu đơn nhãn. Theo phương pháp này thì số lượng các tập con nhãn được tạo ra là rất lớn, nên Read và công sự [12] đã đề xuất một phương pháp tỉa để giảm bớt số lượng các tập nhãn, phương pháp này gọi là tiếp cNn chuyển đổi bằng phương pháp tỉa (PPT). Phương pháp PPT quy định mỗi tập nhãn phải có một số lượng tối thiểu dữ liệu, đối với dữ liệu quá hiếm có thể loại bỏ khỏi tập dữ liệu và đưa vào nhãn mới. Tuy nhiên, việc phân loại dữ liệu văn bản đa nhãn với nhiều nhãn lớp có thể dẫn tới số lượng đặc trưng quá lớn và đôi khi làm giảm kết quả của bộ phân lớp. Có nhiều phương pháp được đề xuất [2], tuy nhiên, phương pháp lựa chọn đặc trưng dựa trên độ tương hỗ (MI) được coi là phương pháp hiệu quả[3]. 8
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
23=>2