Luận văn Thạc sĩ Khoa học máy tính: Phương pháp lọc cộng tác và ứng dụng trong hệ thông tin tư vấn
lượt xem 4
download
Đề tài này trình bày các phương pháp lọc thông tin, ứng dụng của các phương pháp lọc thông tin, hệ thống thông tin tư vấn với kiến trúc tổng quan của hệ thống lọc thông tin, lọc thông tin và các hệ tư vấn. Mời các bạn cùng tham khảo!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận văn Thạc sĩ Khoa học máy tính: Phương pháp lọc cộng tác và ứng dụng trong hệ thông tin tư vấn
- ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LÊ THANH HUYỀN PHƢƠNG PHÁP LỌC CỘNG TÁC VÀ ỨNG DỤNG TRONG HỆ THÔNG TIN TƢ VẤN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN - 2015 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LÊ THANH HUYỀN PHƢƠNG PHÁP LỌC CỘNG TÁC VÀ ỨNG DỤNG TRONG HỆ THÔNG TIN TƢ VẤN Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Ngƣời hƣớng dẫn khoa học: PGS.TS ĐOÀN QUANG BAN THÁI NGUYÊN - 2015 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- i LỜI CAM ĐOAN Tôi xin cam đoan luận văn này c a t n th n tôi t m hi u, nghi n c u is h ng n c a PGS TS Đoàn Văn an c ch ng tr nh o ch nh n th n tôi lập tr nh c c k t qu là hoàn toàn trung th c c tài liệu tham kh o đ c tr ch n và ch th ch đ y đ . Tác giả Lê Thanh Huyền Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- ii LỜI CẢM ƠN Tôi xin y t l i c m n ch n thành t i tập th c c Th y cô Viện ông nghệ thông tin - Viện Hàn L m Khoa h c và công nghệ Việt Nam c c Th y cô gi o Đ i h c ông nghệ thông tin và truy n thông - Đ i h c Th i Nguy n đ y ch ng tôi trong su t qu tr nh h c tập ch ng tr nh cao h c t i tr ng. Đ c iệt tôi xin ày t l ng i t n s u sắc t i Th y gi o PGS TS Đoàn Văn an đ quan t m đ nh h ng và đ a ra nh ng g p g i ch nh s a qu u cho tôi trong qu tr nh làm luận văn t t nghiệp ng nh n đ ng nghiệp gia đ nh và ng i th n đ quan t m gi p đ chia s v i tôi trong su t qu tr nh làm luận văn t t nghiệp đ c gắng nh ng chắc chắn s không tr nh kh i nh ng thi u s t v vậy r t mong nhận đ c s đ ng g p ki n c a c c Th y ô và c c nđ luận văn đ c hoàn thiện h n Tôi xin ch n thành c m n Th i Ngu n th ng n m 5 L Th nh Hu ền Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- iii MỤC LỤC Trang LỜI AM ĐOAN ................................................................................................. i LỜI M N ..................................................................................................... ii MỤC LỤC ......................................................................................................... iii DANH MỤC CÁC CHỮ VIẾT TẮT .................................................................. vi DANH MỤC CÁC B NG ................................................................................. vii DANH MỤC CÁC HÌNH ................................................................................. viii MỞ ĐẦU .......................................................................................................... 1 Chƣơng 1: PHƢƠNG PHÁP LỌC TIN ........................................................ 4 11 c ph ng ph p l c thông tin ................................................................ 4 1 1 1 Ph ng ph p l c tin theo nội dung ....................................................... 4 1.1.1.1 Bài toán l c theo nội dung .................................................................. 4 1112 c ph ng ph p ph p l c theo nội dung .......................................... 5 1 1 2 Ph ng ph p l c tin theo cộng tác ....................................................... 6 1.1.2.1 Bài toán l c cộng tác........................................................................... 6 1122 c ph ng ph p l c cộng tác............................................................ 7 1 1 3 Ph ng pháp l c tin k t h p ............................................................... 11 1.1.3.1 Bài toán l c k t h p .......................................................................... 11 1132 c ph ng ph p l c k t h p ........................................................... 12 1.1.4. Ứng dụng c a c c ph ng ph p l c tin .............................................. 13 1.2. Hệ th ng thông tin t v n ...................................................................... 13 1.2.1. Ki n trúc tổng quan c a hệ th ng l c thông tin.................................. 13 1.2.2. L c thông tin và các hệ t v n ............................................................ 15 Chƣơng 2: MỘT SỐ PHƢƠNG PHÁP LỌC CỘNG TÁC ...................... 17 2.1. L c cộng tác d a trên s n phẩm. ........................................................... 17 2.1.1.Thuật to n t nh độ t ng t ................................................................. 19 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- iv 2 1 1 1 Độ t ng t Cosine........................................................................... 19 2 1 1 2 Độ t ng t t ng quan ................................................................... 20 2 1 1 3 Độ t ng t osine đi u ch nh. ........................................................ 21 2.1.2.Tính toán d đo n và t v n ................................................................ 23 2.1.2.1 Công th c d đo n a tr n trung nh đ nh gi s n phẩm lân cận .... 23 2.1.2.2 Công th c d đo n a trên tổng tr ng s . ...................................... 24 2.1.2.3 Công th c d đo n a trên tổng tr ng s v i đ nh gi trung nh c a ng i dùng ............................................................................................. 25 2.1.2.4 Công th c d đo n a trên tổng tr ng s v i trung nh đ nh gi lên s n phẩm ................................................................................................. 26 2.1.3. Thuật toán l c cộng tác d a trên s n phẩm ........................................ 27 2 1 3 1 Độ t ng t Cosine........................................................................... 28 2.1.3.2 Độ t ng t osine đi u ch nh ......................................................... 28 2.1.3.3 D đo n a tr n trung nh đ nh gi s n phẩm lân cận ................. 29 2.1.3.4 D đo n a trên tổng tr ng s ........................................................ 29 2.1.3.5 D đo n a trên tổng tr ng s v i trung nh đ nh gi l n ng i dùng . 30 2 1 4 Đ nh gi c c y u t nh h ởng đ n độ chính xác k t qu t v n ..... 31 2 1 4 1 Đ nh gi ch t l ng c a hệ th ng t v n ......................................... 31 2.1.4.2 Các y u t nh h ởng đ n độ ch nh x c t v n................................ 31 2.2. L c cộng tác d a tr n mô h nh đ th .................................................... 32 2 2 1 Ph ng ph p i u diễn đ th ............................................................. 32 2 2 2 Ph ng pháp d đo n tr n đ th ng i dùng - s n phẩm ................. 34 2 2 2 1 T ch đ th Ng i dùng-S n phẩm thành c c đ th con ................ 35 2 2 2 2 Ph ng ph p đo n tr n đ th có tr ng s ng G+ ................. 37 2 2 2 3 Ph ng ph p đo n tr n đ th các c nh có tr ng s âm G- ........ 39 2 2 2 4 Ph ng ph p đo n theo t t c đ nh gi ...................................... 41 2.3. L c cộng tác d a vào l c đ ng hu n luyện ........................................... 43 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- v 2.3.1. Mô t thuật to n đ ng hu n luyện ...................................................... 44 2.3.2. Thuật toán l c cộng tác bằng ph ng ph p đ ng hu n luyện theo ng i dùng .................................................................................................... 44 2.3.3 L c cộng tác bằng ph ng ph p đ ng hu n luyện theo s n phẩm..... 46 Chƣơng 3: XÂY DỰNG HỆ THÔNG TIN TƢ VẤN SẢN PHẨM SỮA DÀNH CHO NGƢỜI TIÊU DÙNG ............................................................ 51 3.1. Phát bi u bài toán................................................................................... 51 3.2. Phân tích thi t k hệ th ng t v n s n phẩm s a................................... 51 3.2.1. Phân tích các yêu c u.......................................................................... 51 3.2.2. Thi t k hệ th ng t v n s n phẩm s a. ............................................. 53 3.3. Xây d ng ch ng tr nh ng dụng.......................................................... 54 3.4. K t luận. ................................................................................................... 56 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ................................................... 57 TÀI LIỆU THAM KHẢO ............................................................................ 57 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- vi DANH MỤC CÁC CHỮ VIẾT TẮT KÝ HIỆU DIỄN GI I IF Information Filtering (L c thông tin) IR Information Retrieval (Truy v n thông tin) RS Recommender System (Hệ th ng t v n) u User (Ng i dùng) i Item (S n phẩm) Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- vii DANH MỤC CÁC BẢNG Trang B ng 1.1.Ví dụ v ma trận đ nh gi c a l c cộng tác ....................................... 7 B ng 2.1. B ng đ nh gi ng i dùng v i các s n phẩm ................................. 18 B ng 2.2. B ng t nh độ t ng t theo công th c Cosine ................................ 20 B ng 2.3. B ng t nh độ t ng t theo công th c t ng quan ......................... 21 B ng 2.4. B ng t nh độ t ng t theo công th c osine đi u ch nh .............. 22 B ng 2.5. B ng d đo n và t v n theo ph ng ph p t nh trung nh đo n . 24 B ng 2.6. B ng d đo n và t v n theo ph ng pháp Weigth Sum ............... 25 B ng 2.7. B ng d đo n và t v n theo ph ng ph p tổng tr ng s v i đ nh giá trung bình c a ng i dùng và s dụng độ t ng t Ajusted Cosine. ...... 26 B ng 2.8. B ng d đo n và t v n theo ph ng ph p tổng tr ng s v i đ nh giá trung bình s n phẩm và s dụng độ t ng t Ajusted Cosine. .... 27 B ng 2.9. Ma trận đ nh gi R ......................................................................... 33 B ng 2.10. Ma trận X bi u diễn đ nh đ th Ng i dùng- S n phẩm ............ 33 B ng 2.12. Ma trận X+ bi u diễn c c đ nh gi th ch h p .............................. 36 B ng 2.12. Ma trận X- bi u diễn c c đ nh gi không th ch h p ..................... 36 B ng 2.13: Ng i dùng và s n phẩm .............................................................. 48 B ng 2.14: B ng giá tr đ nh gi theo ng i dùng. ........................................ 48 B ng 2.15: B ng giá tr đ nh gi theo s n phẩm ............................................ 49 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- viii DANH MỤC CÁC HÌNH Trang Hình 1.1. Ki n trúc tổng quát c a hệ th ng l c thông tin. .............................. 14 Hình 2.1. Mô hình hệ th ng l c cộng tác d a trên s n phẩm ......................... 31 Hình 2.2. Đ th ng i dùng - s n phẩm......................................................... 34 Hình 2.3. Đ th G bi u diễn c ch đ nh gi th ch h p.................................... 36 Hình 2.4. Đ th G bi u diễn c ch đ nh gi không th ch h p......................... 37 Hình 3.3: Giao diện ch ng tr nh đo n s n phẩm s a. ............................. 55 Hình 3.4: Ng i ng đăng nhập vào hệ th ng. ............................................. 55 Hình 3.5: Hệ th ng l c cộng tác d a vào bộ nh ........................................... 55 Hình 3.6: Hệ th ng l c cộng tác d a vào đ th ............................................. 56 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- 1 MỞ ĐẦU Xã hội loài ng i ch ng ki n s ph t tri n m nh m và sôi động c a thông tin trong m i l nh v c đ c biệt là s gia tăng không ngừng l ng thông tin khổng l đ n từ hàng trăm k nh truy n hình, hàng triệu ăng h nh s ch báo, t p chí, tài liệu thông qua các hệ th ng giao d ch điện t . Vì vậy ng i dùng s g p kh khăn trong việc l a ch n thông tin h u ch Nhi u nhà khoa h c m y t nh tr n th gi i nhiệt t nh h ởng ng và quan t m nghi n c u ph ng ph p h n ch nh h ởng c a v n đ quá t i thông tin đ i v i ng i ng th c đẩy một l nh v c nghiên c u m i đ là l c thông tin. L c thông tin (Infomation Filtering) [1] là l nh v c nghiên c u quá trình l c b nh ng thông tin không thích h p và cung c p thông tin thích h p đ n v i m i ng i dùng. L c thông tin đ c xem là một ph ng ph p hiệu qu h n ch tình tr ng quá t i thông tin đ c quan tâm nhi u nh t hiện nay. Hệ t v n (Recommender System) [1,2] là hệ th ng có kh năng t động phân tích, phân lo i, l a ch n và cung c p cho ng i dùng nh ng thông tin, hàng hóa hay d ch vụ mà h quan tâm. Hệ t v n đ c xem nh một bi n th đi n hình có vai trò quan tr ng trong l c thông tin. Nhi u hệ t v n đ đ c th ng m i hóa và tri n khai thành công, tiêu bi u là hệ t v n c a các hãng Amazon.com, Netflix.com, Procter & Gamble. Hệ t v n đ c xây d ng d a trên hai kỹ thuật l c thông tin chính: L c theo nội dung (Content-Based Filtering) và l c cộng tác (Collaborative Filtering) [1]. L c theo nội dung khai thác nh ng khía c nh li n quan đ n nội dung thông tin s n phẩm ho c ng i ng đ từng s dụng hay truy nhập trong quá kh đ t o n n t v n. Trái l i, l c cộng tác khai thác nh ng khía c nh li n quan đ n thói quen sở thích c a ng i s dụng s n phẩm c a cộng đ ng ng i dùng có cùng sở th ch đ t o nên t v n. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- 2 So v i l c theo nội dung, l c cộng tác không ph i phân tích, bóc tách, hi u đ nh ch mục cho c c đ c tr ng nội dung s n phẩm, l c cộng tác có th l c hiệu qu trên nhi u d ng s n phẩm kh c nhau nh hàng h a s a, nh, tài liệu. Chính vì vậy tác gi đ l a ch n đ tài “Phương ph p lọc cộng tác và ứng dụng trong hệ thông tin tư vấn” đ th c hiện trong khuôn khổ luận văn th c s chuy n ngành khoa h c máy tính. Đối tƣợng và phạm vi nghiên cứu - Nghiên c u ph ng ph p l c cộng tác d a trên bộ nh ph ng pháp l c cộng tác d a trên mô hình và ph ng ph p l c cộng tác k t h p bộ nh và mô hình. - Nghiên c u l c cộng tác d a trên s n phẩm v i thuật to n t nh độ t ng t , l c cộng tác d a tr n mô h nh đ th v i thuật toán d a tr n mô h nh đ th ng i dùng - s n phẩm nhằm c i thiện độ chính xác c a l c thông tin cho hệ t v n và thuật toán l c bằng ph ng ph p đ ng hu n luyện theo s n phẩm và ng i dùng Đ c biệt xây d ng ng dụng hệ thông tin t v n s n phẩm s a ành cho ng i tiêu dùng. Hƣớng nghiên cứu củ đề tài Tập trung nghiên c u hai v n đ chính. 1. Trình bày c c ph ng ph p l c thông tin, ng dụng c a c c ph ng pháp l c thông tin, hệ th ng thông tin t v n v i ki n trúc tổng quan c a hệ th ng l c thông tin, l c thông tin và các hệ t v n. 2. Nghiên c u l c cộng tác d a trên s n phẩm v i thuật to n t nh độ t ng t , l c cộng tác d a tr n mô h nh đ th v i thuật toán d a trên mô hình đ th ng i dùng - s n phẩm nhằm c i thiện độ chính xác c a l c thông tin cho hệ t v n và thuật toán l c bằng ph ng ph p đ ng hu n luyện theo s n phẩm và ng i dùng. Phƣơng pháp nghi n cứu Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- 3 - Nghiên c u lý thuy t: Nghiên c u các khái niệm v l c thông tin, trong đ đi s u vào nghi n c u l c cộng tác. Nghiên c u thuật toán tính độ t ng t ph ng ph p i u diễn đ th và ph ng ph p l c d a vào l c đ ng hu n luyện. - Nghiên c u th c nghiệm: Xây d ng ph n m m ng dụng hệ thông tin t v n s n phẩm s a ành cho ng i tiêu dùng. Ý nghĩ kho học củ đề tài - Khai th c đ c thuật to n t nh độ t ng t . - Khai th c ph ng pháp bi u diễn đ th và ph ng ph p đo n tr n đ th ng i dùng. - Khai th c đ c thuật toán l c đ ng hu n luyện theo s n phẩm và l c đ ng hu n luyện theo ng i dùng. Bố cục luận văn h ng 1: Ph ng ph p l c tin. Trình bày tổng quan v c c ph ng ph p l c thông tin và hệ th ng thông tin t v n. h ng 2: Một s ph ng ph p l c cộng tác. Trình bày thuật toán l c cộng tác d a trên s n phẩm, thuật toán d a tr n mô h nh đ th ng i dùng - s n phẩm và thuật to n đ ng hu n luyện. h ng 3: h ng tr nh ng dụng. Xây d ng ch ng tr nh ng dụng s n phẩm s a ành cho ng i tiêu dùng. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- 4 Chƣơng 1 PHƢƠNG PHÁP LỌC TIN 1.1. Các phƣơng pháp lọc thông tin L c thông tin (Information Filtering) [1] là l nh v c nghiên c u quá trình l c b nh ng thông tin không thích h p và cung c p thông tin thích h p đ n v i m i ng i dùng. L c thông tin đ c xem là một ph ng ph p hiệu qu h n ch tình tr ng quá t i thông tin đ c quan tâm nhi u nh t hiện nay. 3 ph ng ph p l c thông tin. 1.1.1. Phương pháp lọc tin theo nội dung L c theo nội ung là ph ng ph p th c hiện d a trên việc so sánh nội dung thông tin hay mô t hàng hóa, nhằm tìm ra nh ng s n phẩm t ng t v i nh ng gì mà ng i ng đ từng quan tâm đ gi i thiệu cho h nh ng s n phẩm này [3]. Các ph ng ph p ti p cận cho l c theo nội dung có ngu n g c từ l nh v c truy v n thông tin trong đ m i s n phẩm đ c bi u diễn bằng một h s s n phẩm, m i ng i dùng đ c bi u diễn bằng một h s ng i ng Ph ng ph p đo n nội dung nguyên b n c a s n phẩm th c hiện d a vào việc xem xét các h s s n phẩm có m c độ phù h p cao v i h s ng i dùng. 1.1.1.1 Bài toán lọc theo nội dung Bài toán l c theo nội ung đ c phát bi u nh sau ho P = {p1, p2,.., pN} là tập g m N s n phẩm. Nội dung s n phẩm p∈ P đ c ký hiệu là Content(p) đ c bi u diễn thông qua tập K đ c tr ng nội dung c a P. Tập các đ c tr ng s n phẩm p đ c xây d ng bằng các kỹ thuật truy v n thông tin đ th c hiện mục đ ch đo n nh ng s n phẩm kh c t ng t v i p. Cho U = { u1, u2,.., uM} là tập g m M ng i dùng. V i m i ng i dùng u∈ U, g i ContentBasedProfile(u) là h s ng i dùng u. H s c a ng i dùng u th c ch t là l ch s truy cập ho c đ nh gi c a ng iđ đ iv i Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- 5 các s n phẩm. ContentBasedProfile(u) đ c xây d ng bằng cách phân tích nội dung các s n phẩm mà ng i dùng u đ từng truy nhập ho c đ nh gi a trên các kỹ thuật truy v n thông tin. Bài toán l c theo nội dung khi đ là đo n nh ng s n phẩm m i có nội dung thích h p v i ng i dùng d a trên tập h s s n phẩm Content(p) và h s ng i dùng ContendBasedProfile(u). 1.1.1.2 C c phương ph p ph p lọc theo nội dung L c theo nội ung đ c ti p cận theo hai xu h ng: L c d a trên bộ nh và l c d a trên mô hình. Lọc nội dung dựa vào bộ nhớ L c nội dung d a vào bộ nh là ph ng ph p s dụng toàn bộ tập h s s n phẩm và tập h s ng i ng đ th c hiện hu n luyện và d đo n Trong ph ng ph p này c c s n phẩm m i đ c tính toán và so sánh v i t t c h s ng i dùng. Nh ng s n phẩm m i có m c độ t ng t cao nh t v i h s ng i dùng s đ c dùng đ t v n cho ng i dùng này. Lọc nội dung dựa vào mô hình L c nội dung d a tr n mô h nh là ph ng ph p s dụng tập h s s n phẩm và tập h s ng i dùng đ xây d ng nên mô hình hu n luyện. Mô hình d đo n sau đ s s dụng k t qu c a mô hình hu n luyện đ sinh ra t v n cho ng i dùng. Trong cách ti p cận này, l c nội dung có th s dụng các kỹ thuật h c m y nh m ng Bayes, phân cụm, cây quy t đ nh, m ng n ron nh n t o đ t o nên d đo n Pazzani và Billsus [9] s dụng bộ phân lo i Bayes d a trên nh ng đ nh gi “thích” ho c “không thích” c a ng i ng đ phân lo i các s n phẩm. Trong đ ph ng ph p cl ng xác su t s n phẩm pj có thuộc l p Ci hay không d a vào tập c c đ c tr ng nội dung k1j,..,knj c a s n phẩm đ P( Ci| k1j&k2j & .. &knj ) (1.1) Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- 6 Panzanni và Billsus gi thi t c c đ c tr ng nội dung xu t hiện độc lập nhau, vì vậy xác su t ở tr n t ng ng v i: P( Ci) ∏ P(kxj| Ci) (1.2) x: là ng i dùng ch y từ 1 n Vì P(kxj| Ci) và P(Ci) có th cl ng d a vào tập d liệu hu n luyện. Do vậy, s n phẩm pj đ c xem là thuộc l p Ci n u xác su t P( Ci| k1j&k2 j & .. &kn j) có giá tr cao nh t thuộc l p này. Solombo[5] đ xu t mô hình l c thích nghi, trong đ ch tr ng đ n việc quan sát m c phù h p c a t t c các s n phẩm. 1.1.2. Phương pháp lọc tin theo cộng tác Không gi ng nh l c theo nội dung, l c cộng tác khai thác nh ng khía c nh li n quan đ n thói quen sở thích c a ng i s dụng s n phẩm đ đ a ra d đo n c c s n phẩm m i cho ng i dùng này. So v i l c theo nội dung, l c cộng tác không ph i phân tích, bóc tách, hi u, đ nh ch mục cho c c đ c tr ng nội dung s n phẩm. Chính vì vậy, l c cộng tác có th l c hiệu qu trên nhi u d ng s n phẩm kh c nhau nh hàng hóa, s a, nh, tài liệu [4]. Cùng trên một hệ t v n ng i dùng s đ c t v n nhi u lo i m t hàng khác nhau cho dù các m t hàng này có th bi u diễn tr n không gian c c đ c tr ng nội dung khác nhau. 1.1.2.1 Bài toán lọc cộng tác Ký hiệu U= {u1, u2 … uN} là tập g m N ng i dùng, P= {p1, p2,.., pM} là tập g m M s n phẩm mà ng i dùng có th l a ch n. M i s n phẩm pi∈ P có th là hàng hóa, s a, nh, t p chí, tài liệu, sách, báo, d ch vụ ho c b t kỳ d ng thông tin nào mà ng i dùng c n đ n. Ti p theo, ký hiệu R={rij}, i = 1..N, j = 1..M là ma trận đ nh gi trong đ m i ng i dùng ui∈ U đ a ra đ nh gi c a mình cho một s s n phẩm pj∈ P bằng một tr ng s rij. Giá tr rij ph n ánh m c độ a th ch c a ng i dùng ui Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- 7 đ i v i s n phẩm pj. Giá tr rij có th đ c thu thập tr c ti p bằng cách h i ý ki n ng i dùng ho c thu thập gián ti p thông qua c ch ph n h i c a ng i dùng. Giá tr rij = Ø trong tr ng h p ng i dùng ui ch a đ nh gi ho c ch a bao gi bi t đ n s n phẩm pj. V i một ng i dùng c n đ c t v n ua (đ c g i là ng i dùng hiện th i ng i dùng c n đ c t v n hay ng i dùng tích c c), bài toán l c cộng tác là bài toán d đo n đ nh gi c a ua đ i v i nh ng m t hàng mà u a ch a đ nh gi (r aj = Ø) tr n c sở đ t v n cho ua nh ng s n phẩm đ c đ nh gi cao B ng 1.1 th hiện một ví dụ v i ma trận đ nh gi R = (rij) trong hệ g m 5 ng i dùng U = {u1, u2, u3, u4, u5} và 4 s n phẩm P= {p1, p2, p3, p4}. M i ng i dùng đ u đ a ra c c đ nh gi c a mình v các s n phẩm theo thang bậc {Ø, 1, 2, 3, 4, 5}. Giá tr rij = Ø đ c hi u là ng i dùng ui ch a đ nh gi ho c ch a bao gi bi t đ n s n phẩm pj. Các giá tr r5,2 = ? là s n phẩm hệ th ng c n d đo n cho ng i dùng u5. Bảng 1.1.Ví dụ v ma trận đ nh gi c a l c cộng tác p1 p2 p3 p4 u1 2 1 3 5 u2 4 2 1 Ø u3 3 Ø 2 4 u4 4 4 Ø Ø u5 4 ? 5 5 Ma trận đ nh gi R= (rij) là thông tin đ u vào duy nh t c a c c ph ng pháp l c cộng tác. D a trên ma trận đ nh gi c c ph ng ph p l c cộng tác th c hiện hai tác vụ: D đo n quan đi m c a ng i dùng hiện th i (Active User) v các s n phẩm mà h ch a đ nh gi đ ng th i đ a ra một danh sách các s n phẩm có đ nh gi cao nh t phân bổ cho ng i dùng hiện th i. 1.1.2.2 C c phương ph p lọc cộng tác Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- 8 ng gi ng nh l c theo nội dung, l c cộng tác ti p cận theo hai xu h ng chính: L c cộng tác d a trên bộ nh và l c cộng tác d a trên mô hình. M i ph ng ph p ti p cận có nh ng u đi m và h n ch riêng, khai thác các m i liên hệ trên ma trận đ nh gi ng i dùng. Cách ti p cận cụ th m i ph ng ph p đ c th c hiện nh sau. Lọc cộng tác dựa trên bộ nhớ c ph ng ph p l c d a trên bộ nh s dụng toàn bộ ma trận đ nh gi đ sinh ra d đo n c c s n phẩm cho ng i dùng hiện th i. V th c ch t đ y là ph ng ph p h c l i hay h c d a trên ví dụ đ c s dụng trong h c máy. Ph ng ph p đ c th c hiện theo hai c: Tính toán m c độ t ng t và c t o nên d đo n • T nh to n m c độ t ng t sim(x, y): Mô t kho ng cách, s liên quan, hay tr ng s gi a hai ng i dùng x và y (ho c gi a hai s n phẩm x và y). • đo n: Đ a ra đo n cho ng i dùng c n đ c t v n bằng cách xác đ nh tập láng gi ng c a ng i dùng này. Tập láng gi ng c a ng i dùng c n t v nđ c xác đ nh d a trên m c độ t ng t gi a các c p ng i dùng ho c s n phẩm. Việc tính toán m c độ t ng t gi a hai ng i dùng x và y đ c xem xét d a vào tập s n phẩm c hai ng i dùng đ u đ nh gi T ng t , việc tính toán m c độ t ng t gi a hai s n phẩm x và y đ c xem xét d a vào tập ng i dùng cùng đ nh gi c hai s n phẩm Sau đ s dụng một độ đo cụ th đ xác đ nh m c độ t ng t gi a hai ng i dùng ho c s n phẩm. Chú ý rằng c hai ph ng ph p l c theo nội dung và l c cộng tác đ u s dụng độ đo cosin gi ng nhau trên tập các s n phẩm. Tuy nhiên, l c theo nội dung s dụng độ t ng t cosin cho các véc t c a tr ng s đ c tính theo độ đo t n su t và t n su t xu t hiện ng c, l c cộng tác s dụng cosin gi a hai véc t i u diễn đ nh gi c a ng i dùng. Lọc cộng tác dựa vào mô hình Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- 9 Khác v i ph ng ph p a trên bộ nh ph ng ph p l c d a trên mô hình [2] s dụng tập đ nh giá đ xây d ng mô hình hu n luyện. K t qu c a mô hình hu n luyện đ c s dụng đ sinh ra d đo n quan đi m c a ng i dùng v các s n phẩm ch a đ c h đ nh gi Ưu đi m c a c a ph ng ph p này là mô hình hu n luyện c k ch th c nh h n r t nhi u so v i ma trận đ nh gi và th c hiện d đo n nhanh Mô h nh ch c n cập nhật l i khi có nh ng thay đổi l n và ch th c hiện l i ph n xây d ng mô hình. Mô hình mạng Bayes Mô hình m ng Bayes [6] bi u diễn m i s n phẩm nh một đ nh c a đ th , tr ng thái c a đ nh t ng ng v i giá tr đ nh gi c a ng i dùng đ i v i s n phẩm đ đ c đ nh gi u trúc c a m ng đ c phận bi t từ tập d liệu hu n luyện. Breese [6] đ xu t ph ng ph p m ng ayes đ n gi n cho l c cộng t c trong đ nh ng đ nh gi ch a i t đ c tính toán theo công th c (1.3). Breese gi thi t các giá tr đ nh gi đ c xem xét nh nh ng s nguyên nằm gi a 0 và n. Đ nh gi ch a bi t c a ng i dùng u đ i v i s n phẩm p là ru,p đ c cl ng thông qua nh ng đ nh gi tr c đ c a ng i dùng u. G i Pu= { p’∈ P| rup’ ≠ Ø} Khi đ đ nh gi ch a i t c a ng i dùng u đ i v i s n phẩm p đ c tính theo công th c i Prr n rup = E(rup) = up i rup' , p' Pu (1.3) i 0 Billsus và Pazzani [9] chuy n đổi d liệu có nhi u m c đ nh giá thành d liệu nh ph n Khi đ ma trận đ nh gi đ c chuy n đổi thành ma trận bao g m đ c tr ng nh phân. Việc chuy n đổi này làm cho việc s dụng mô hình m ng r trở nên thuận tiện h n Tuy nhi n k t qu phân lo i theo c c đ c tr ng nh phân không ph n nh đ ng c c ộ d liệu th c Mô hình phân cụm Một cụm là tập các đ i t ng d liệu có các ph n t trong cụm gi ng nhau nhi u nh t, và khác nhau nhi u nh t đ i v i các ph n t thuộc các cụm khác c ph ng ph p ph n cụm cho l c cộng t c đ c s dụng đ phân Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- 10 chia tập ng i dùng (ho c tập s n phẩm) thành các cụm ng i dùng (ho c s n phẩm) có sở th ch t ng t nhau Khi đ ng i dùng (ho c s n phẩm) thuộc cụm nào s đ c d đo n và t v n các s n phẩm đ c đ nh gi cao trong cụm đ [7] Độ đo ng đ cl ng m c độ gi ng nhau gi a c c đ i t ng d liệu th ng đ c s dụng là kho ng cách Minkowski và độ t ng quan Pearson. Cho hai đ i t ng d liệu X = (x1, x2,..,xn), Y = (y1, y2,..,yn). Khi đ kho ng c ch Minkowski đ c đ nh ngh a theo công th c n x y q d(X,Y) = q i i i 1 Trong đ n là s chi u c a X và Y; xi, yi là giá tr thành ph n th ic a X và Y; q là một s nguyên ng N u q =1, thì d(X,Y) là kho ng cách Minkowski. N u q =2, thì d(X,Y)là kho ng cách Euclid. Sarwar và Herlocker [7] cùng các cộng s s dụng các kỹ thuật phân cụm chia tập ng i dùng thành các cụm Ph ng ph p đo n s dụng các thuật toán d a trên bộ nh nh độ t ng quan Pearson đ th c hiện trên m i cụm d liệu. Si và Jin [8] đ xu t mô hình phân cụm bằng mô hình pha trộn linh ho t (Flexible Mixture Mo el) Ph ng ph p ph n cụm đ ng th i cho c ng i dùng và s n phẩm và cho phép m i ng i dùng ho c s n phẩm có th thuộc nhi u cụm khác nhau, sau đ mô h nh h a c c cụm ng i dùng và các cụm s n phẩm độc lập nhau đ th c hiện d đo n K t qu th nghiệm đ ch ng t ph ng ph p cho l i k t qu t t h n so v i ph ng ph p a trên độ t ng quan Pearson và mô h nh đ nh h ng (Aspect Model). Mô hình ngữ nghĩa ẩn: Mô hình ng ngh a ẩn cho l c cộng tác d a vào các kỹ thuật th ng kê, trong đ c c tham i n ẩn đ c thi t lập trong một mô hình h n h p đ khám phá ra cộng đ ng ng i dùng phù h p v i m u h s thích h p. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Tóm tắt luận văn thạc sĩ khoa học xã hội và nhân văn: Ảnh hưởng của văn học dân gian đối với thơ Tản Đà, Trần Tuấn Khải
26 p | 789 | 100
-
Tóm tắt luận văn thạc sĩ khoa học: Bài toán tô màu đồ thị và ứng dụng
24 p | 493 | 83
-
Luận văn thạc sĩ khoa học: Hệ thống Mimo-Ofdm và khả năng ứng dụng trong thông tin di động
152 p | 328 | 82
-
Tóm tắt luận văn thạc sĩ khoa học: Bài toán màu và ứng dụng giải toán sơ cấp
25 p | 372 | 74
-
Tóm tắt luận văn thạc sĩ khoa học: Bài toán đếm nâng cao trong tổ hợp và ứng dụng
26 p | 414 | 72
-
Tóm tắt luận văn thạc sĩ khoa học: Nghiên cứu thành phần hóa học của lá cây sống đời ở Quãng Ngãi
12 p | 544 | 61
-
Tóm tắt luận văn Thạc sĩ Khoa học: Nghiên cứu vấn đề an ninh mạng máy tính không dây
26 p | 517 | 60
-
Luận văn thạc sĩ khoa học Giáo dục: Biện pháp rèn luyện kỹ năng sử dụng câu hỏi trong dạy học cho sinh viên khoa sư phạm trường ĐH Tây Nguyên
206 p | 300 | 60
-
Tóm tắt luận văn thạc sĩ khoa học: Bài toán tìm đường ngắn nhất và ứng dụng
24 p | 344 | 55
-
Tóm tắt luận văn thạc sĩ khoa học: Bất đẳng thức lượng giác dạng không đối xứng trong tam giác
26 p | 313 | 46
-
Tóm tắt luận văn Thạc sĩ Khoa học xã hội và nhân văn: Đặc trưng ngôn ngữ và văn hóa của ngôn ngữ “chat” trong giới trẻ hiện nay
26 p | 321 | 40
-
Tóm tắt luận văn thạc sĩ khoa học: Bài toán ghép căp và ứng dụng
24 p | 265 | 33
-
Tóm tắt luận văn thạc sĩ khoa học xã hội và nhân văn: Phật giáo tại Đà Nẵng - quá khứ hiện tại và xu hướng vận động
26 p | 236 | 22
-
Tóm tắt luận văn Thạc sĩ Khoa học: Nghiên cứu ảnh hưởng của quản trị vốn luân chuyển đến tỷ suất lợi nhuận của các Công ty cổ phần ngành vận tải niêm yết trên sàn chứng khoán Việt Nam
26 p | 287 | 14
-
Tóm tắt luận văn Thạc sĩ Khoa học xã hội và nhân văn: Thế giới biểu tượng trong văn xuôi Nguyễn Ngọc Tư
26 p | 250 | 13
-
Tóm tắt luận văn Thạc sĩ Khoa học xã hội và nhân văn: Đặc điểm ngôn ngữ của báo Hoa Học Trò
26 p | 215 | 13
-
Tóm tắt luận văn Thạc sĩ Khoa học xã hội và nhân văn: Ngôn ngữ Trường thơ loạn Bình Định
26 p | 194 | 5
-
Luận văn Thạc sĩ Khoa học giáo dục: Tích hợp nội dung giáo dục biến đổi khí hậu trong dạy học môn Hóa học lớp 10 trường trung học phổ thông
119 p | 5 | 3
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn