ĐẠI HỌC THÁI NGUYÊN

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

LÊ THANH HUYỀN

PHƢƠNG PHÁP LỌC CỘNG TÁC VÀ ỨNG DỤNG

TRONG HỆ THÔNG TIN TƢ VẤN

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN - 2015

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

ĐẠI HỌC THÁI NGUYÊN

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

LÊ THANH HUYỀN

PHƢƠNG PHÁP LỌC CỘNG TÁC VÀ ỨNG DỤNG TRONG HỆ THÔNG TIN TƢ VẤN

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Ngƣời hƣớng dẫn khoa học: PGS.TS ĐOÀN QUANG BAN THÁI NGUYÊN - 2015

i

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn này c a t n th n tôi t m hi u, nghi n c u

i s h ng n c a PGS TS Đoàn Văn an c ch ng tr nh o ch nh

n th n tôi lập tr nh c c k t qu là hoàn toàn trung th c c tài liệu tham

kh o đ c tr ch n và ch th ch đ y đ .

Tác giả

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Lê Thanh Huyền

ii

LỜI CẢM ƠN

Tôi xin y t l i c m n ch n thành t i tập th c c Th y cô Viện ông

nghệ thông tin - Viện Hàn L m Khoa h c và công nghệ Việt Nam c c Th y cô

gi o Đ i h c ông nghệ thông tin và truy n thông - Đ i h c Th i Nguy n đ y

ch ng tôi trong su t qu tr nh h c tập ch ng tr nh cao h c t i tr ng.

Đ c iệt tôi xin ày t l ng i t n s u sắc t i Th y gi o PGS TS

Đoàn Văn an đ quan t m đ nh h ng và đ a ra nh ng g p g i

ch nh s a qu u cho tôi trong qu tr nh làm luận văn t t nghiệp ng

nh n đ ng nghiệp gia đ nh và ng i th n đ quan t m gi p đ chia

s v i tôi trong su t qu tr nh làm luận văn t t nghiệp

đ c gắng nh ng chắc chắn s không tr nh kh i nh ng thi u s t v

vậy r t mong nhận đ c s đ ng g p ki n c a c c Th y ô và c c n đ

luận văn đ c hoàn thiện h n

Tôi xin ch n thành c m n

Th i Ngu n th ng n m 5

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

L Th nh Hu ền

iii

MỤC LỤC

LỜI AM ĐOAN ................................................................................................. i

LỜI M N ..................................................................................................... ii

MỤC LỤC ......................................................................................................... iii

DANH MỤC CÁC CHỮ VIẾT TẮT .................................................................. vi

DANH MỤC CÁC B NG ................................................................................. vii

DANH MỤC CÁC HÌNH ................................................................................. viii

Trang

MỞ ĐẦU .......................................................................................................... 1

Chƣơng 1: PHƢƠNG PHÁP LỌC TIN ........................................................ 4

1 1 c ph ng ph p l c thông tin ................................................................ 4

1 1 1 Ph ng ph p l c tin theo nội dung ....................................................... 4

1.1.1.1 Bài toán l c theo nội dung .................................................................. 4

1 1 1 2 c ph ng ph p ph p l c theo nội dung .......................................... 5

1 1 2 Ph ng ph p l c tin theo cộng tác ....................................................... 6

1.1.2.1 Bài toán l c cộng tác........................................................................... 6

1 1 2 2 c ph ng ph p l c cộng tác. ........................................................... 7

1 1 3 Ph ng pháp l c tin k t h p ............................................................... 11

1.1.3.1 Bài toán l c k t h p .......................................................................... 11

1 1 3 2 c ph ng ph p l c k t h p ........................................................... 12

1.1.4. Ứng dụng c a c c ph ng ph p l c tin .............................................. 13

1.2. Hệ th ng thông tin t v n ...................................................................... 13

1.2.1. Ki n trúc tổng quan c a hệ th ng l c thông tin.................................. 13

1.2.2. L c thông tin và các hệ t v n ............................................................ 15

Chƣơng 2: MỘT SỐ PHƢƠNG PHÁP LỌC CỘNG TÁC ...................... 17

2.1. L c cộng tác d a trên s n phẩm. ........................................................... 17

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

2.1.1.Thuật to n t nh độ t ng t ................................................................. 19

iv

2 1 1 1 Độ t ng t Cosine. .......................................................................... 19

2 1 1 2 Độ t ng t t ng quan ................................................................... 20

2 1 1 3 Độ t ng t osine đi u ch nh. ........................................................ 21

2.1.2.Tính toán d đo n và t v n ................................................................ 23

2.1.2.1 Công th c d đo n a tr n trung nh đ nh gi s n phẩm lân cận .... 23

2.1.2.2 Công th c d đo n a trên tổng tr ng s . ...................................... 24

2.1.2.3 Công th c d đo n a trên tổng tr ng s v i đ nh gi trung nh

c a ng i dùng ............................................................................................. 25

2.1.2.4 Công th c d đo n a trên tổng tr ng s v i trung nh đ nh gi

lên s n phẩm ................................................................................................. 26

2.1.3. Thuật toán l c cộng tác d a trên s n phẩm ........................................ 27

2 1 3 1 Độ t ng t Cosine ........................................................................... 28

2.1.3.2 Độ t ng t osine đi u ch nh ......................................................... 28

2.1.3.3 D đo n a tr n trung nh đ nh gi s n phẩm lân cận ................. 29

2.1.3.4 D đo n a trên tổng tr ng s ........................................................ 29

2.1.3.5 D đo n a trên tổng tr ng s v i trung nh đ nh gi l n ng i dùng . 30

2 1 4 Đ nh gi c c y u t nh h ởng đ n độ chính xác k t qu t v n ..... 31

2 1 4 1 Đ nh gi ch t l ng c a hệ th ng t v n ......................................... 31

2.1.4.2 Các y u t nh h ởng đ n độ ch nh x c t v n ................................ 31

2.2. L c cộng tác d a tr n mô h nh đ th .................................................... 32

2 2 1 Ph ng ph p i u diễn đ th ............................................................. 32

2 2 2 Ph ng pháp d đo n tr n đ th ng i dùng - s n phẩm ................. 34

2 2 2 1 T ch đ th Ng i dùng-S n phẩm thành c c đ th con ................ 35 2 2 2 2 Ph ng ph p đo n tr n đ th có tr ng s ng G+ ................. 37 2 2 2 3 Ph ng ph p đo n tr n đ th các c nh có tr ng s âm G- ........ 39

2 2 2 4 Ph ng ph p đo n theo t t c đ nh gi ...................................... 41

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

2.3. L c cộng tác d a vào l c đ ng hu n luyện ........................................... 43

v

2.3.1. Mô t thuật to n đ ng hu n luyện ...................................................... 44

2.3.2. Thuật toán l c cộng tác bằng ph ng ph p đ ng hu n luyện theo

ng i dùng .................................................................................................... 44

2.3.3 L c cộng tác bằng ph ng ph p đ ng hu n luyện theo s n phẩm ..... 46

Chƣơng 3: XÂY DỰNG HỆ THÔNG TIN TƢ VẤN SẢN PHẨM SỮA

DÀNH CHO NGƢỜI TIÊU DÙNG ............................................................ 51

3.1. Phát bi u bài toán. .................................................................................. 51

3.2. Phân tích thi t k hệ th ng t v n s n phẩm s a................................... 51

3.2.1. Phân tích các yêu c u .......................................................................... 51

3.2.2. Thi t k hệ th ng t v n s n phẩm s a. ............................................. 53

3.3. Xây d ng ch ng tr nh ng dụng .......................................................... 54

3.4. K t luận. ................................................................................................... 56

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ................................................... 57

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

TÀI LIỆU THAM KHẢO ............................................................................ 57

vi

DANH MỤC CÁC CHỮ VIẾT TẮT

DIỄN GI I KÝ HIỆU

IF Information Filtering (L c thông tin)

IR Information Retrieval (Truy v n thông tin)

RS Recommender System (Hệ th ng t v n)

u User (Ng i dùng)

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

i Item (S n phẩm)

vii

DANH MỤC CÁC BẢNG

Trang

B ng 1.1.Ví dụ v ma trận đ nh gi c a l c cộng tác ....................................... 7

B ng 2.1. B ng đ nh gi ng i dùng v i các s n phẩm ................................. 18

B ng 2.2. B ng t nh độ t ng t theo công th c Cosine ................................ 20

B ng 2.3. B ng t nh độ t ng t theo công th c t ng quan ......................... 21

B ng 2.4. B ng t nh độ t ng t theo công th c osine đi u ch nh .............. 22

B ng 2.5. B ng d đo n và t v n theo ph ng ph p t nh trung nh đo n . 24

B ng 2.6. B ng d đo n và t v n theo ph ng pháp Weigth Sum ............... 25

B ng 2.7. B ng d đo n và t v n theo ph ng ph p tổng tr ng s v i đ nh giá

trung bình c a ng i dùng và s dụng độ t ng t Ajusted Cosine. ...... 26

B ng 2.8. B ng d đo n và t v n theo ph ng ph p tổng tr ng s v i đ nh

giá trung bình s n phẩm và s dụng độ t ng t Ajusted Cosine. .... 27

B ng 2.9. Ma trận đ nh gi R ......................................................................... 33

B ng 2.10. Ma trận X bi u diễn đ nh đ th Ng i dùng- S n phẩm ............ 33 B ng 2.12. Ma trận X+ bi u diễn c c đ nh gi th ch h p .............................. 36 B ng 2.12. Ma trận X- bi u diễn c c đ nh gi không th ch h p ..................... 36

B ng 2.13: Ng i dùng và s n phẩm .............................................................. 48

B ng 2.14: B ng giá tr đ nh gi theo ng i dùng. ........................................ 48

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

B ng 2.15: B ng giá tr đ nh gi theo s n phẩm ............................................ 49

viii

DANH MỤC CÁC HÌNH

Trang Hình 1.1. Ki n trúc tổng quát c a hệ th ng l c thông tin. .............................. 14

Hình 2.1. Mô hình hệ th ng l c cộng tác d a trên s n phẩm ......................... 31

Hình 2.2. Đ th ng i dùng - s n phẩm ......................................................... 34

Hình 2.3. Đ th G bi u diễn c ch đ nh gi th ch h p .................................... 36

Hình 2.4. Đ th G bi u diễn c ch đ nh gi không th ch h p ......................... 37

Hình 3.3: Giao diện ch ng tr nh đo n s n phẩm s a. ............................. 55

Hình 3.4: Ng i ng đăng nhập vào hệ th ng. ............................................. 55

Hình 3.5: Hệ th ng l c cộng tác d a vào bộ nh ........................................... 55

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Hình 3.6: Hệ th ng l c cộng tác d a vào đ th ............................................. 56

1

MỞ ĐẦU

Xã hội loài ng i ch ng ki n s ph t tri n m nh m và sôi động c a

thông tin trong m i l nh v c đ c biệt là s gia tăng không ngừng l ng thông

tin khổng l đ n từ hàng trăm k nh truy n hình, hàng triệu ăng h nh s ch

báo, t p chí, tài liệu thông qua các hệ th ng giao d ch điện t . Vì vậy ng i

dùng s g p kh khăn trong việc l a ch n thông tin h u ch Nhi u nhà khoa

h c m y t nh tr n th gi i nhiệt t nh h ởng ng và quan t m nghi n c u

ph ng ph p h n ch nh h ởng c a v n đ quá t i thông tin đ i v i ng i

ng th c đẩy một l nh v c nghiên c u m i đ là l c thông tin.

L c thông tin (Infomation Filtering) [1] là l nh v c nghiên c u quá

trình l c b nh ng thông tin không thích h p và cung c p thông tin thích h p

đ n v i m i ng i dùng. L c thông tin đ c xem là một ph ng ph p hiệu

qu h n ch tình tr ng quá t i thông tin đ c quan tâm nhi u nh t hiện nay.

Hệ t v n (Recommender System) [1,2] là hệ th ng có kh năng t

động phân tích, phân lo i, l a ch n và cung c p cho ng i dùng nh ng thông

tin, hàng hóa hay d ch vụ mà h quan tâm. Hệ t v n đ c xem nh một bi n

th đi n hình có vai trò quan tr ng trong l c thông tin. Nhi u hệ t v n đ

đ c th ng m i hóa và tri n khai thành công, tiêu bi u là hệ t v n c a các

hãng Amazon.com, Netflix.com, Procter & Gamble.

Hệ t v n đ c xây d ng d a trên hai kỹ thuật l c thông tin chính: L c

theo nội dung (Content-Based Filtering) và l c cộng tác (Collaborative

Filtering) [1]. L c theo nội dung khai thác nh ng khía c nh li n quan đ n nội

dung thông tin s n phẩm ho c ng i ng đ từng s dụng hay truy nhập

trong quá kh đ t o n n t v n. Trái l i, l c cộng tác khai thác nh ng khía

c nh li n quan đ n thói quen sở thích c a ng i s dụng s n phẩm c a cộng

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

đ ng ng i dùng có cùng sở th ch đ t o nên t v n.

2

So v i l c theo nội dung, l c cộng tác không ph i phân tích, bóc tách,

hi u đ nh ch mục cho c c đ c tr ng nội dung s n phẩm, l c cộng tác có th

l c hiệu qu trên nhi u d ng s n phẩm kh c nhau nh hàng h a s a, nh, tài

liệu. Chính vì vậy tác gi đ l a ch n đ tài “Phương ph p lọc cộng tác và

ứng dụng trong hệ thông tin tư vấn” đ th c hiện trong khuôn khổ luận văn

th c s chuy n ngành khoa h c máy tính.

Đối tƣợng và phạm vi nghiên cứu

- Nghiên c u ph ng ph p l c cộng tác d a trên bộ nh ph ng pháp

l c cộng tác d a trên mô hình và ph ng ph p l c cộng tác k t h p bộ nh và

mô hình.

- Nghiên c u l c cộng tác d a trên s n phẩm v i thuật to n t nh độ t ng

t , l c cộng tác d a tr n mô h nh đ th v i thuật toán d a tr n mô h nh đ th

ng i dùng - s n phẩm nhằm c i thiện độ chính xác c a l c thông tin cho hệ

t v n và thuật toán l c bằng ph ng ph p đ ng hu n luyện theo s n phẩm và

ng i dùng Đ c biệt xây d ng ng dụng hệ thông tin t v n s n phẩm s a

ành cho ng i tiêu dùng.

Hƣớng nghiên cứu củ đề tài

Tập trung nghiên c u hai v n đ chính.

1. Trình bày c c ph ng ph p l c thông tin, ng dụng c a c c ph ng

pháp l c thông tin, hệ th ng thông tin t v n v i ki n trúc tổng quan c a hệ

th ng l c thông tin, l c thông tin và các hệ t v n.

2. Nghiên c u l c cộng tác d a trên s n phẩm v i thuật to n t nh độ

t ng t , l c cộng tác d a tr n mô h nh đ th v i thuật toán d a trên mô hình

đ th ng i dùng - s n phẩm nhằm c i thiện độ chính xác c a l c thông tin

cho hệ t v n và thuật toán l c bằng ph ng ph p đ ng hu n luyện theo s n

phẩm và ng i dùng.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Phƣơng pháp nghi n cứu

3

- Nghiên c u lý thuy t: Nghiên c u các khái niệm v l c thông tin,

trong đ đi s u vào nghi n c u l c cộng tác. Nghiên c u thuật toán tính

độ t ng t ph ng ph p i u diễn đ th và ph ng ph p l c d a vào

l c đ ng hu n luyện.

- Nghiên c u th c nghiệm: Xây d ng ph n m m ng dụng hệ thông tin

t v n s n phẩm s a ành cho ng i tiêu dùng.

Ý nghĩ kho học củ đề tài

- Khai th c đ c thuật to n t nh độ t ng t .

- Khai th c ph ng pháp bi u diễn đ th và ph ng ph p đo n tr n

đ th ng i dùng.

- Khai th c đ c thuật toán l c đ ng hu n luyện theo s n phẩm và l c

đ ng hu n luyện theo ng i dùng.

Bố cục luận văn

h ng 1: Ph ng ph p l c tin.

Trình bày tổng quan v c c ph ng ph p l c thông tin và hệ th ng

thông tin t v n.

h ng 2: Một s ph ng ph p l c cộng tác.

Trình bày thuật toán l c cộng tác d a trên s n phẩm, thuật toán d a

tr n mô h nh đ th ng i dùng - s n phẩm và thuật to n đ ng hu n luyện.

h ng 3: h ng tr nh ng dụng.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Xây d ng ch ng tr nh ng dụng s n phẩm s a ành cho ng i tiêu dùng.

4

Chƣơng 1

PHƢƠNG PHÁP LỌC TIN

1.1. Các phƣơng pháp lọc thông tin

L c thông tin (Information Filtering) [1] là l nh v c nghiên c u quá

trình l c b nh ng thông tin không thích h p và cung c p thông tin thích h p

đ n v i m i ng i dùng. L c thông tin đ c xem là một ph ng ph p hiệu

qu h n ch tình tr ng quá t i thông tin đ c quan tâm nhi u nh t hiện nay.

3 ph ng ph p l c thông tin.

1.1.1. Phương pháp lọc tin theo nội dung

L c theo nội ung là ph ng ph p th c hiện d a trên việc so sánh nội

dung thông tin hay mô t hàng hóa, nhằm tìm ra nh ng s n phẩm t ng t v i

nh ng gì mà ng i ng đ từng quan tâm đ gi i thiệu cho h nh ng s n

phẩm này [3]. Các ph ng ph p ti p cận cho l c theo nội dung có ngu n g c

từ l nh v c truy v n thông tin trong đ m i s n phẩm đ c bi u diễn bằng

một h s s n phẩm, m i ng i dùng đ c bi u diễn bằng một h s ng i

ng Ph ng ph p đo n nội dung nguyên b n c a s n phẩm th c hiện

d a vào việc xem xét các h s s n phẩm có m c độ phù h p cao v i h s

ng i dùng.

1.1.1.1 Bài toán lọc theo nội dung

Bài toán l c theo nội ung đ c phát bi u nh sau ho P = {p1, p2,..,

pN} là tập g m N s n phẩm. Nội dung s n phẩm p∈ P đ c ký hiệu là

Content(p) đ c bi u diễn thông qua tập K đ c tr ng nội dung c a P. Tập các

đ c tr ng s n phẩm p đ c xây d ng bằng các kỹ thuật truy v n thông tin đ

th c hiện mục đ ch đo n nh ng s n phẩm kh c t ng t v i p.

Cho U = { u1, u2,.., uM} là tập g m M ng i dùng. V i m i ng i

dùng u∈ U, g i ContentBasedProfile(u) là h s ng i dùng u. H s c a

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

ng i dùng u th c ch t là l ch s truy cập ho c đ nh gi c a ng i đ đ i v i

5

các s n phẩm. ContentBasedProfile(u) đ c xây d ng bằng cách phân tích

nội dung các s n phẩm mà ng i dùng u đ từng truy nhập ho c đ nh gi a

trên các kỹ thuật truy v n thông tin.

Bài toán l c theo nội dung khi đ là đo n nh ng s n phẩm m i có

nội dung thích h p v i ng i dùng d a trên tập h s s n phẩm Content(p) và

h s ng i dùng ContendBasedProfile(u).

1.1.1.2 C c phương ph p ph p lọc theo nội dung

L c theo nội ung đ c ti p cận theo hai xu h ng: L c d a trên bộ

nh và l c d a trên mô hình.

Lọc nội dung dựa vào bộ nhớ

L c nội dung d a vào bộ nh là ph ng ph p s dụng toàn bộ tập h

s s n phẩm và tập h s ng i ng đ th c hiện hu n luyện và d đo n

Trong ph ng ph p này c c s n phẩm m i đ c tính toán và so sánh v i t t

c h s ng i dùng. Nh ng s n phẩm m i có m c độ t ng t cao nh t v i

h s ng i dùng s đ c dùng đ t v n cho ng i dùng này.

Lọc nội dung dựa vào mô hình

L c nội dung d a tr n mô h nh là ph ng ph p s dụng tập h s s n

phẩm và tập h s ng i dùng đ xây d ng nên mô hình hu n luyện. Mô hình

d đo n sau đ s s dụng k t qu c a mô hình hu n luyện đ sinh ra t v n

cho ng i dùng. Trong cách ti p cận này, l c nội dung có th s dụng các kỹ

thuật h c m y nh m ng Bayes, phân cụm, cây quy t đ nh, m ng n ron nh n

t o đ t o nên d đo n

Pazzani và Billsus [9] s dụng bộ phân lo i Bayes d a trên nh ng đ nh

gi “thích” ho c “không thích” c a ng i ng đ phân lo i các s n phẩm.

Trong đ ph ng ph p c l ng xác su t s n phẩm pj có thuộc l p Ci hay

không d a vào tập c c đ c tr ng nội dung k1j,..,knj c a s n phẩm đ

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

(1.1) P( Ci| k1j&k2j & .. &knj )

6

Panzanni và Billsus gi thi t c c đ c tr ng nội dung xu t hiện độc lập nhau, vì

vậy xác su t ở tr n t ng ng v i:

(1.2) P( Ci) ∏ P(kxj| Ci)

x: là ng i dùng ch y từ 1 n

Vì P(kxj| Ci) và P(Ci) có th c l ng d a vào tập d liệu hu n luyện. Do

j ) có giá tr cao nh t thuộc l p này.

vậy, s n phẩm pj đ c xem là thuộc l p Ci n u xác su t P( Ci| k1j&k2 j & .. &kn

Solombo[5] đ xu t mô hình l c thích nghi, trong đ ch tr ng đ n việc

quan sát m c phù h p c a t t c các s n phẩm.

1.1.2. Phương pháp lọc tin theo cộng tác

Không gi ng nh l c theo nội dung, l c cộng tác khai thác nh ng khía

c nh li n quan đ n thói quen sở thích c a ng i s dụng s n phẩm đ đ a ra

d đo n c c s n phẩm m i cho ng i dùng này. So v i l c theo nội dung, l c

cộng tác không ph i phân tích, bóc tách, hi u, đ nh ch mục cho c c đ c

tr ng nội dung s n phẩm. Chính vì vậy, l c cộng tác có th l c hiệu qu trên

nhi u d ng s n phẩm kh c nhau nh hàng hóa, s a, nh, tài liệu [4]. Cùng

trên một hệ t v n ng i dùng s đ c t v n nhi u lo i m t hàng khác nhau

cho dù các m t hàng này có th bi u diễn tr n không gian c c đ c tr ng nội

dung khác nhau.

1.1.2.1 Bài toán lọc cộng tác

Ký hiệu U= {u1, u2 … uN} là tập g m N ng i dùng, P= {p1, p2,..,

pM} là tập g m M s n phẩm mà ng i dùng có th l a ch n. M i s n phẩm

pi∈ P có th là hàng hóa, s a, nh, t p chí, tài liệu, sách, báo, d ch vụ ho c b t

kỳ d ng thông tin nào mà ng i dùng c n đ n.

Ti p theo, ký hiệu R={rij}, i = 1..N, j = 1..M là ma trận đ nh gi trong

đ m i ng i dùng ui∈ U đ a ra đ nh gi c a mình cho một s s n phẩm pj∈

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

P bằng một tr ng s rij. Giá tr rij ph n ánh m c độ a th ch c a ng i dùng ui

7

đ i v i s n phẩm pj. Giá tr rij có th đ c thu thập tr c ti p bằng cách h i ý

ki n ng i dùng ho c thu thập gián ti p thông qua c ch ph n h i c a ng i

dùng. Giá tr rij = Ø trong tr ng h p ng i dùng ui ch a đ nh gi ho c ch a

bao gi bi t đ n s n phẩm pj.

V i một ng i dùng c n đ c t v n ua (đ c g i là ng i dùng hiện

th i ng i dùng c n đ c t v n hay ng i dùng tích c c), bài toán l c

cộng tác là bài toán d đo n đ nh gi c a ua đ i v i nh ng m t hàng mà ua

ch a đ nh gi (raj = Ø) tr n c sở đ t v n cho ua nh ng s n phẩm đ c

đ nh gi cao

B ng 1.1 th hiện một ví dụ v i ma trận đ nh gi R = (rij) trong hệ g m

5 ng i dùng U = {u1, u2, u3, u4, u5} và 4 s n phẩm P= {p1, p2, p3, p4}. M i

ng i dùng đ u đ a ra c c đ nh gi c a mình v các s n phẩm theo thang bậc

{Ø, 1, 2, 3, 4, 5}. Giá tr rij = Ø đ c hi u là ng i dùng ui ch a đ nh gi

ho c ch a bao gi bi t đ n s n phẩm pj. Các giá tr r5,2 = ? là s n phẩm hệ

th ng c n d đo n cho ng i dùng u5.

Bảng 1.1.Ví dụ v ma trận đ nh gi c a l c cộng tác

p1 p2 p3 p4

2 1 3 5 u1

4 2 1 Ø u2

3 Ø 2 4 u3

4 4 Ø Ø u4

4 ? 5 5 u5

Ma trận đ nh gi R= (rij) là thông tin đ u vào duy nh t c a c c ph ng

pháp l c cộng tác. D a trên ma trận đ nh gi c c ph ng ph p l c cộng tác th c

hiện hai tác vụ: D đo n quan đi m c a ng i dùng hiện th i (Active User) v

các s n phẩm mà h ch a đ nh gi đ ng th i đ a ra một danh sách các s n

phẩm có đ nh gi cao nh t phân bổ cho ng i dùng hiện th i.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

1.1.2.2 C c phương ph p lọc cộng tác

8

ng gi ng nh l c theo nội dung, l c cộng tác ti p cận theo hai xu

h ng chính: L c cộng tác d a trên bộ nh và l c cộng tác d a trên mô hình.

M i ph ng ph p ti p cận có nh ng u đi m và h n ch riêng, khai thác các

m i liên hệ trên ma trận đ nh gi ng i dùng. Cách ti p cận cụ th m i

ph ng ph p đ c th c hiện nh sau.

Lọc cộng tác dựa trên bộ nhớ

c ph ng ph p l c d a trên bộ nh s dụng toàn bộ ma trận đ nh gi

đ sinh ra d đo n c c s n phẩm cho ng i dùng hiện th i. V th c ch t đ y

là ph ng ph p h c l i hay h c d a trên ví dụ đ c s dụng trong h c máy.

Ph ng ph p đ c th c hiện theo hai c: Tính toán m c độ t ng t và

c t o nên d đo n

• T nh to n m c độ t ng t sim(x, y): Mô t kho ng cách, s liên quan, hay

tr ng s gi a hai ng i dùng x và y (ho c gi a hai s n phẩm x và y).

• đo n: Đ a ra đo n cho ng i dùng c n đ c t v n bằng cách xác

đ nh tập láng gi ng c a ng i dùng này. Tập láng gi ng c a ng i dùng c n

t v n đ c xác đ nh d a trên m c độ t ng t gi a các c p ng i dùng ho c

s n phẩm.

Việc tính toán m c độ t ng t gi a hai ng i dùng x và y đ c xem

xét d a vào tập s n phẩm c hai ng i dùng đ u đ nh gi T ng t , việc tính

toán m c độ t ng t gi a hai s n phẩm x và y đ c xem xét d a vào tập

ng i dùng cùng đ nh gi c hai s n phẩm Sau đ s dụng một độ đo cụ th

đ xác đ nh m c độ t ng t gi a hai ng i dùng ho c s n phẩm.

Chú ý rằng c hai ph ng ph p l c theo nội dung và l c cộng tác đ u

s dụng độ đo cosin gi ng nhau trên tập các s n phẩm. Tuy nhiên, l c theo

nội dung s dụng độ t ng t cosin cho các véc t c a tr ng s đ c tính

theo độ đo t n su t và t n su t xu t hiện ng c, l c cộng tác s dụng cosin

gi a hai véc t i u diễn đ nh gi c a ng i dùng.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Lọc cộng tác dựa vào mô hình

9

Khác v i ph ng ph p a trên bộ nh ph ng ph p l c d a trên mô

hình [2] s dụng tập đ nh giá đ xây d ng mô hình hu n luyện. K t qu c a

mô hình hu n luyện đ c s dụng đ sinh ra d đo n quan đi m c a ng i

dùng v các s n phẩm ch a đ c h đ nh gi Ưu đi m c a c a ph ng ph p

này là mô hình hu n luyện c k ch th c nh h n r t nhi u so v i ma trận

đ nh gi và th c hiện d đo n nhanh Mô h nh ch c n cập nhật l i khi có

nh ng thay đổi l n và ch th c hiện l i ph n xây d ng mô hình.

Mô hình mạng Bayes

Mô hình m ng Bayes [6] bi u diễn m i s n phẩm nh một đ nh c a đ

th , tr ng thái c a đ nh t ng ng v i giá tr đ nh gi c a ng i dùng đ i v i

s n phẩm đ đ c đ nh gi u trúc c a m ng đ c phận bi t từ tập d liệu

hu n luyện. Breese [6] đ xu t ph ng ph p m ng ayes đ n gi n cho l c

cộng t c trong đ nh ng đ nh gi ch a i t đ c tính toán theo công th c

(1.3). Breese gi thi t các giá tr đ nh gi đ c xem xét nh nh ng s nguyên

nằm gi a 0 và n. Đ nh gi ch a bi t c a ng i dùng u đ i v i s n phẩm p là

ru,p đ c c l ng thông qua nh ng đ nh gi tr c đ c a ng i dùng u.

G i Pu= { p’∈ P| rup’ ≠ Ø} Khi đ đ nh gi ch a i t c a ng i dùng u đ i

v i s n phẩm p đ c tính theo công th c

(1.3) rup = E(rup) =

Billsus và Pazzani [9] chuy n đổi d liệu có nhi u m c đ nh giá thành d liệu

nh ph n Khi đ ma trận đ nh gi đ c chuy n đổi thành ma trận bao g m

đ c tr ng nh phân. Việc chuy n đổi này làm cho việc s dụng mô hình m ng

r trở nên thuận tiện h n Tuy nhi n k t qu phân lo i theo c c đ c tr ng nh

phân không ph n nh đ ng c c ộ d liệu th c

Mô hình phân cụm

Một cụm là tập các đ i t ng d liệu có các ph n t trong cụm gi ng

nhau nhi u nh t, và khác nhau nhi u nh t đ i v i các ph n t thuộc các cụm

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

khác c ph ng ph p ph n cụm cho l c cộng t c đ c s dụng đ phân

10

chia tập ng i dùng (ho c tập s n phẩm) thành các cụm ng i dùng (ho c s n

phẩm) có sở th ch t ng t nhau Khi đ ng i dùng (ho c s n phẩm) thuộc

cụm nào s đ c d đo n và t v n các s n phẩm đ c đ nh gi cao trong

cụm đ [7] Độ đo ng đ c l ng m c độ gi ng nhau gi a c c đ i t ng

d liệu th ng đ c s dụng là kho ng cách Minkowski và độ t ng quan

Pearson.

Cho hai đ i t ng d liệu X = (x1, x2,..,xn), Y = (y1, y2,..,yn). Khi

đ kho ng c ch Minkowski đ c đ nh ngh a theo công th c

d(X,Y) =

Trong đ n là s chi u c a X và Y; xi, yi là giá tr thành ph n th i c a

X và Y; q là một s nguyên ng N u q =1, thì d(X,Y) là kho ng cách

Minkowski. N u q =2, thì d(X,Y)là kho ng cách Euclid.

Sarwar và Herlocker [7] cùng các cộng s s dụng các kỹ thuật phân

cụm chia tập ng i dùng thành các cụm Ph ng ph p đo n s dụng các

thuật toán d a trên bộ nh nh độ t ng quan Pearson đ th c hiện trên m i

cụm d liệu.

Si và Jin [8] đ xu t mô hình phân cụm bằng mô hình pha trộn linh

ho t (Flexible Mixture Mo el) Ph ng ph p ph n cụm đ ng th i cho c

ng i dùng và s n phẩm và cho phép m i ng i dùng ho c s n phẩm có th

thuộc nhi u cụm khác nhau, sau đ mô h nh h a c c cụm ng i dùng và các

cụm s n phẩm độc lập nhau đ th c hiện d đo n K t qu th nghiệm đ

ch ng t ph ng ph p cho l i k t qu t t h n so v i ph ng ph p a trên độ

t ng quan Pearson và mô h nh đ nh h ng (Aspect Model).

Mô hình ngữ nghĩa ẩn:

Mô hình ng ngh a ẩn cho l c cộng tác d a vào các kỹ thuật th ng kê,

trong đ c c tham i n ẩn đ c thi t lập trong một mô hình h n h p đ khám

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

phá ra cộng đ ng ng i dùng phù h p v i m u h s thích h p.

11

Si và Jin [8] đ xu t mô h nh đa th c (Multinomial Model) phân lo i

tập ng i dùng v i gi thi t ch có một ki u ng i dùng duy nh t. Marlin [5]

đ xu t mô hình pha trộn đa th c (Multinomial Mixture Model), k t h p v i

mô hình đ nh h ng đ t o nên mô hình h s đ nh gi ng i dùng(User

Rating Profile) v i gi thi t có nhi u ki u ng i ng và c c đ nh giá m i

ng i dùng độc lập nhau. Marlin khẳng đ nh, h s đ nh gi ng i dùng

th c hiện t t h n so v i mô h nh đ nh h ng và mô hình pha trộn đa th c.

Mô hình phân lo i và h i qui: Cho tập g m N véct M chi u {xi}. Mục tiêu

c a phân lo i hay h i qui là d đo n ch nh x c gi tr đ u ra t ng ng {ci}.

Trong tr ng h p phân lo i, ci nhận một giá tr từ một tập h u h n g i là tập

các nhãn. Trong tr ng h p h i qui, ci có th nhận một giá tr th c Đ áp

dụng mô hình phân lo i cho l c cộng tác, m i s n phẩm (ho c ng i dùng)

đ c xây d ng một bộ phân lo i riêng. Bộ phân lo i cho s n phẩm y phân

lo i tập ng i dùng d a trên nh ng ng i dùng kh c đ đ nh gi s n phẩm

y. Các bộ phân lo i đ c ti n hành hu n luyện độc lập nhau trên tập các ví

dụ hu n luyện.

1.1.3. Phương pháp lọc tin kết hợp

L c k t h p hay còn g i là ph ng ph p lai [1] là ph ng ph p k t h p

gi a cộng tác và l c nội dung nhằm tận dụng l i th và tránh nh ng h n ch

c a m i ph ng ph p So v i c c ph ng pháp khác, l c k t h p cho l i k t

qu d đo n t t và có nhi u tri n v ng áp dụng trong các ng dụng th c t .

1.1.3.1 Bài toán lọc kết hợp

Ngoài ng i dùng U, tập s n phẩm P, ma trận l c cộng t c R nh đ

đ c trình bày ở trên, kí hiệu C = {c1,c2 … ck} là tập K đ c tr ng bi u diễn

nội dung thông tin các s n phẩm p ho c ng i dùng u . Ví dụ n u

p là một lo i s a khi đ ta c th bi u diễn s a thông qua c c đ c tr ng ci

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

”thể loại", "thành phần", "hãng sản xuất" và c c đ c tr ng khác c a s a; n u

12

là một ng i dùng thì ta có th xem xét c c đ c tr ng ci: "tuổi", " giới u

tính", "nghề nghiệp" và c c đ c tr ng kh c ph n nh thông tin ng i dùng.

Bài toán c a l c k t h p là d đo n cho ng i dùng hiện th i ua nh ng

s n phẩm pk P ch a đ c ua đ nh gi a trên ma trận đ nh gi rij và c c đ c

tr ng nội dung C = {c1,c2 … ck}.

1.1.3.2 C c phương ph p lọc kết hợp

L c k t h p đ c ti p cận theo 4 xu h ng chính: K t h p tuy n tính,

k t h p đ c tính c a l c nội dung vào l c cộng tác, k t h p đ c tính c a l c

cộng tác vào l c nội dung và xây d ng mô hình h p nh t gi a l c cộng tác và

l c nội dung.

Kết hợp tuyến tính [3] là ph ng ph p x y ng hai l c đ l c nội dung và

l c cộng t c độc lập nhau. K t qu d đo n c a toàn bộ mô hình có th đ c

l a ch n từ ph ng ph p cho k t qu t t h n Ưu đi m c a ph ng ph p này

là k thừa đ c ph ng ph p i u diễn và tính toán v n có c a c c ph ng

ph p Nh c đi m l n nh t c a mô hình này là cho k t qu không cao v ch a

có s k t h p hiệu qu gi a nội ung và đ nh gi ng i dùng.

K t h p đ c tính c a l c nội dung và l c cộng t c là ph ng ph p a

trên các kỹ thuật l c cộng tác thu n t y nh ng v n duy trì h s ng i dùng

ContentBasedProfile(u) nh một tham bi n tham kh o khi tính toán s t ng

t gi a các c p ng i ng Ph ng ph p c th phát hiện ra nh ng s n phẩm

t ng t v i h s ng i dùng ho c không t ng t v i h s ng i dùng.

Trong tr ng h p d liệu th a ho c ng i dùng m i, m c độ t ng t gi a

h s ng i dùng và s n phẩm s đ c xem xét đ n đ t o nên d đo n

Kết hợp đặc tính cuả lọc cộng tác và lọc nội dung là ph ng ph p xem xét

c c đ nh gi ng i dùng c a l c cộng t c nh một thành ph n trong m i h

s ng i ng Ph ng ph p đo n th c hiện theo l c nội dung thu n túy

và so sánh v i k t qu d a trên bi u diễn h s ng i dùng mở rộng Ph ng

pháp phổ bi n nh t th hiện theo mô hình này là s dụng các kỹ thuật gi m s

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

chi u cho h s ng i ng tr c khi k t h p v i đ nh gi ng i dùng.

13

1.1.4. Ứng dụng của các phương pháp lọc tin

L c thông tin (IF) là l nh v c nghiên c u các quá trình cung c p thông

tin thích h p ngăn ngừa và g b thông tin không thích h p cho m i ng i

dùng. Thông tin đ c cung c p (c n đ c g i là s n phẩm) có th là văn n,

trang web, phim, nh, d ch vụ ho c b t kỳ d ng thông tin nào đ c s n sinh ra

từ c c ph ng tiện truy n thông. Ph m vi ng dụng c a l c thông tin tr i

rộng trong nhi u ng dụng th c t khác nhau c a khoa h c máy tính. Ứng

dụng tiêu bi u nh t c a l c thông tin đ c k đ n là l c k t qu tìm ki m

trong các máy tìm ki m (Search Engine), l c e-mail d a trên nội ung th và

h s ng i dùng, l c thông tin văn n trên các máy ch đ cung c p thông

tin cho tập th ho c cá nhân thích h p, lo i b nh ng trang thông tin có nh

h ởng không t t đ i v i ng i dùng. Đ c biệt, l c thông tin có vai trò quan

tr ng cho các hệ th ng t v n (RS) ng dụng trong th ng m i điện t .

1.2. Hệ thống thông tin tƣ vấn

Hệ th ng l c thông tin t v n cung c p cho ng i dùng nh ng thông tin

c n thi t nh t, lo i b nh ng thông tin không có giá tr ho c không thích h p

đ i v i ng i dùng. Nguyên lý phổ bi n đ c dùng trong l c thông tin là

nguyên lý d a vào d liệu (Data-Based) và nguyên lý d a vào tri th c

(Knowledge-Based). Các ph ng ph p l c có th đ c th c hiện d a vào nội

dung thông tin s n phẩm ho c l c d a trên thói quen sở thích ng i dùng. Các

kỹ thuật l c đ c phát tri n d a trên n n t ng từ l nh v c truy v n thông tin

(Information Retrieval), tách thông tin (Information Extraction), phân lo i

thông tin (Information Classification). Ph m vi ng dụng c a các hệ th ng l c

đ c áp dụng cho t t c c c mô h nh th ng m i điện t th c t : Khách hàng

- Khách hàng (Customer to Customer), Nhà cung c p - Khách hàng (Business

to Customer), Nhà cung c p - Nhà cung c p (Business to Business) [6].

1.2.1. Kiến trúc tổng quan của hệ thống lọc thông tin

Một hệ th ng l c thông tin tổng quát bao g m b n thành ph n c n

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

[6]: Thành ph n phân tích d liệu (Data Analyser Component), thành ph n

14

mô hình ng i dùng (User Model Component), thành ph n h c (Learning

Ng i dùng

Ng i cung c p thông tin

Thông tin đ c t ng i dùng

Thành ph n mô h nh ng i dùng

Ph n h i ng i dùng

Thông tin các s n phẩm

H s ng i dùng

S n phẩm phù h p v i ng i dùng

Cập nhật thông tin hu n luyện

Bi u diễn thông tin s n phẩm

Thành ph n h c

Thành ph n l c

Thành ph n phân tích d liệu

Bi u diễn thông tin s n phẩm

Component) và thành ph n l c (Filtering Component).

Hình 1.1. Ki n trúc tổng quát c a hệ th ng l c thông tin.

• Thành phần phân tích dữ liệu có nhiệm vụ thu thập d liệu v s n phẩm từ

các nhà cung c p thông tin (ví dụ tài liệu th điện t , sách, báo, t p chí, s a,

nh...). D liệu v s n phẩm đ c phân tích và bi u diễn theo một khuôn d ng

thích h p sau đ chuy n đ n bộ phận l c nh Hình 1.1.

• Thành phần mô hình người dùng có th “hiện” ho c “ẩn” ng đ l y thông

tin v ng i dùng, nh gi i tính, tuổi n i sinh s ng và thông tin ng i dùng

đ truy v n tr c đ đ t o nên h s ng i dùng. H s ng i dùng sau khi

t o ra đ c chuy n đ n thành ph n h c đ th c hiện nhiệm vụ hu n luyện.

• Thành phần học th c hiện hu n luyện trên tập h s và ph n h i c a ng i

dùng theo một thuật toán h c máy cụ th . Thuật toán h c l y d liệu từ thành

ph n mô t ng i dùng; l y d liệu v s n phẩm đ đ c bi u diễn từ thành

ph n l c k t h p v i thông tin ph n h i ng i ng đ th c hiện nhiệm vụ

hu n luyện. K t qu quá trình h c đ c chuy n l i cho bộ phận l c đ th c

hiện nhiệm vụ ti p theo.

• Thành phần lọc là thành ph n quan tr ng nh t c a hệ th ng, có nhiệm vụ

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

xem xét s phù h p gi a h s ng i dùng và bi u diễn d liệu s n phẩm đ

15

đ a ra quy t đ nh phân bổ s n phẩm. N u d liệu s n phẩm phù h p v i h s

ng i dùng, s n phẩm s đ c cung c p cho ng i ng đ Trong tr ng h p

ng c l i, hệ th ng lo i b s n phẩm kh i danh sách nh ng s n phẩm phân bổ

cho ng i ng Ng i dùng nhận đ c nh ng s n phẩm thích h p, xem xét,

đ nh gi ph n h i l i cho thành ph n h c đ phục vụ quá trình l c ti p theo.

1.2.2. Lọc thông tin và các hệ tư vấn

Hệ tƣ vấn (RS) là tr ng h p riêng c a các hệ th ng l c thông tin. D a

trên thông tin đ c v ng i dùng, hệ t v n xem xét trong s l ng r t l n

hàng hóa hay thông tin và t v n cho ng i dùng một danh sách ngắn g n

nh ng đ y đ nh ng hàng h a mà ng i dùng có kh năng quan tâm.

S dụng hệ t v n trong các ng dụng th ng m i điện t s h tr

khách hàng không c n th c hiện các thao tác tìm ki m s n phẩm, mà ch c n

l a ch n hàng hóa ho c d ch vụ a th ch o hệ th ng cung c p. Đi u này s

làm gia tăng năng l c mua, bán c a toàn bộ hệ th ng. Chính vì lý do này,

hàng lo t c c công ty đa qu c gia (Amazon.com, Netflix.com, CDNOW, J.C.

Penney, Procter & Gam le ) đ đ u t và phát tri n thành công công nghệ t

v n đ gia tăng hệ th ng khách hàng và bán hàng qua m ng [6].

o là tr ng h p riêng c a hệ th ng l c tin, hệ t v n có nhi u đ c

đi m c a hệ l c tin tiêu bi u Tuy nhi n o đ c đi m c a d liệu ng i dùng

và nội dung, hệ t v n c ng nh các kỹ thuật đ c s dụng có một s khác

biệt nh t đ nh. T y vào ph ng ph p l c tin, các hệ t v n đ c phân lo i

thành ba lo i:

• Phương ph p tư vấn dựa vào lọc nội dung: Hệ th ng t v n cho ng i dùng

nh ng s n phẩm m i có nội ung t ng t v i một s s n phẩm h đ từng

mua ho c từng truy nhập trong quá kh .

• Phương ph p tư vấn dựa vào lọc cộng tác: Ng i dùng s đ c t v n

một s s n phẩm c a nh ng ng i có sở thích gi ng h đ từng a th ch

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

trong quá kh .

16

• Phương ph p tư vấn dựa vào lọc kết hợp: Hệ th ng t v n cho ng i dùng

nh ng s n phẩm t ng t v i một s s n phẩm h đ từng mua ho c từng truy

nhập trong quá kh và s n phẩm c a nh ng ng i có sở thích gi ng h đ

từng a th ch trong qu kh .

M i ph ng pháp l c áp dụng cho các hệ t v n đ c phân thành hai h ng

ti p cận: l c d a vào bộ nh (Memory-Based Filtering) và l c d a vào mô

hình (Model-Based Filtering).

• C c phương ph p lọc dựa vào bộ nhớ: Đ y là ph ng ph p l u l i toàn bộ

các ví dụ hu n luyện. Khi c n d đo n hệ th ng tìm các ví dụ hu n luyện

gi ng tr ng h p c n d đo n nh t và đ a ra t v n d a trên các ví dụ này.

Tr ng h p tiêu bi u c a l c d a vào bộ nh là thuật toán K ng i láng gi ng

g n nh t. Ưu đi m chính c a ph ng ph p ti p cận này là đ n gi n, dễ cài

đ t Tuy nhi n ph ng ph p này c th i gian l c chậm do việc d đo n đ i

h i so sánh và tìm ki m trên toàn bộ l ng ng i dùng và s n phẩm.

• Phương ph p lọc dựa trên mô hình: Trong ph ng ph p này liệu đ c

s dụng đ xây d ng mô hình rút g n, ví dụ mô hình xác su t hay cây quy t

đ nh Mô h nh này sau đ đ c s dụng đ đ a ra c c t v n Ph ng ph p

này cho phép th c hiện việc d đo n nhanh o qu tr nh đo n th c hiện

tr n mô h nh đ h c tr c đ

1.3. Kết luận

Trong ch ng này luận văn đ tr nh ày kh i niệm và các ki n th c c sở

v c c ph ng ph p l c thông tin và hệ thông tin t v n h ng 2 tác gi s đi

sâu nghiên c u c c ph ng ph p l c cộng t c v ph ng ph p này có th l c

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

hiệu qu trên nhi u d ng s n phẩm kh c nhau nh hàng h a s a, nh, tài liệu.

17

Chƣơng 2

MỘT SỐ PHƢƠNG PHÁP LỌC CỘNG TÁC

2.1. Lọc cộng tác dựa trên sản phẩm

Gi i thuật t v n d a trên s n phẩm nhằm đ a ra c c đo n cho ng i

dùng bởi đ i t ng đ c xét ở đ y là s n phẩm Qu tr nh t v n bằng ph ng

pháp l c cộng tác d a trên s n phẩm s t nh to n độ t ng t các s n phẩm, sau

đ l a ch n k s n phẩm t ng t {i1, i2 …ik}. Khi nh ng s n phẩm c độ t ng

t nh t đ c tìm h t, d đo n đ c tính toán d a trên trung bình c a đ nh gi

ng i dùng trên nh ng s n phẩm t ng t . Đa s c c đ xu t mô t hai khía

c nh này, cụ th là việc t nh to n độ t ng t và các d đo n s n phẩm.

Ví dụ minh h a th c t v một hệ th ng l c cộng tác d a trên s n

phẩm: Gi s s n phẩm ở đ y là s a và ng i dùng là các kh ch hàng đăng

nhập vào 1 hệ th ng We stie đ mua s a. M i ng i dùng đ c l u tr trên

hệ th ng v i các h s ao g m thông tin c nh n và c c đ nh gi c a ng i

ng đ v i các lo i s a đ nh gi theo thang đi m từ 1 sao đ n 5 sao, v i ý

ngh a là đ nh gi càng cao th ng i dùng càng thích lo i s a đ Công việc

c a hệ th ng t v n là: Khi một ng i dùng đăng nhập vào hệ th ng, hệ th ng

c n t v n nh ng lo i s a cho ng i dùng đ và nh ng lo i s a đ c t v n

đ đ c d đo n là ng i dùng s đ nh gi cao Hệ th ng xem xét các lo i

s a mà ng i dùng ch a xem so s nh độ t ng t gi a lo i s a đ v i nh ng

s a kh c Độ t ng t 2 lo i s a đ c tính d a trên nh ng ng i dùng từng

đ nh gi tr n c 2 lo i s a đ theo 1 thuật toán tính xác su t c cu i cùng

c a hệ th ng t v n là d đo n đ nh gi c a ng i dùng v i nh ng s a mà

ng i ng ch a s dụng, l a ch n nh ng s a đ c d đo n c đ nh gi cao

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

đ đ a vào anh s ch t v n cho ng i dùng.

18

Ví dụ 2.1: Có 9 ng i ng đ nh gi 9 s n phẩm, v i m c độ từ 1 đ n 5, n u

ng i ng không đ nh gi s n phẩm thì giá tr là 0.

Bảng 2.1. B ng đ nh gi ng i dùng v i các s n phẩm

S n phẩm Ng i

dùng p1 p2 p3 p4 p5 p6 p7 p8 p9

1 2 1 5 0 0 0 0 0 u1

2 1 3 0 0 1 0 0 0 u2

2 3 0 2 3 1 0 0 4 u3

5 0 2 0 1 0 0 0 2 u4

0 0 3 5 0 3 4 0 0 u5

0 1 1 0 3 5 4 1 0 u6

0 0 0 0 3 4 2 1 0 u7

0 0 0 0 0 5 1 2 2 u8

0 0 3 1 0 0 0 2 4 u9

c c trong quá trình t v n theo ph ng ph p l c cộng tác d a trên s n phẩm:

Bước 1: Tiền xử lý dữ liệu: D liệu đ c thu thập là nh ng đ nh gi

s n phẩm c a ng i dùng. D liệu này th ng r t l n tuy nhiên một s đ nh

giá có th không c ch trong qu tr nh t v n theo ph ng ph p l c cộng tác.

Đ xu t đ c đ a ra đ t i u liệu đ u vào, một s s n phẩm ho c ng i

dùng s đ c lo i b n u ng i ng đ đ nh gi qu t s n phẩm, ho c s n

phẩm đ c qu t đ nh gi

Bước 2: Xây dựng Ma trận đ nh gi : Hàng là c c ng i dùng, Cột là

các s n phẩm.

Bước 3: Tính độ tương tự c a 2 s n phẩm, xây d ng Ma trận t ng t

c a các s n phẩm.

Bước 4: Tính dự đo n c a ng i ng đ i v i s n phẩm d a trên nh ng

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

s n phẩm lân cận v i s n phẩm d đo n

19

2.1.1.Thuật toán tính độ tương tự

Đ d đo n 1 s n phẩm cho 1 ng i dùng s dụng ph ng ph p l c

cộng tác c n xem xét đ nh gi c a ng i dùng lên nh ng s n phẩm t ng t

v i s n phẩm đ độ t ng t đ c x c đ nh d a vào đ nh gi c a c c ng i

ng kh c đ đ nh gi c 2 s n phẩm Độ t ng t 2 s n phẩm là 1 xác su t

th hiện 2 s n phẩm đ c t ng đ ng nhau trên khía c nh đ nh gi c a ng i

ng hay không? Độ t ng t ở đ y đ c hi u là n u 2 s n phẩm t ng t

nhau th 1 ng i dùng thích s n phẩm này s thích s n phẩm kia và ng c l i.

c quan tr ng trong gi i thuật l c cộng tác d a trên s n phẩm là tính

to n độ t ng t gi a các s n phẩm và sau đ ch n nh ng s n phẩm mà

t ng đ ng nh t đ s dụng trong công th c d đo n Ý t ởng c n trong

t nh to n độ t ng t gi a hai s n phẩm i và j là: Ch n các c p ng i dùng

mà đ đ nh gi c 2 s n phẩm và sau đ p ụng kỹ thuật t nh to n độ t ng

t đ mô t độ t ng t Si,j.

2.1.1.1 Độ tương tự Cosine

Trong tr ng h p này, c 2 s n phẩm i, j đ c bi u diễn thông qua 2

véc-t cột n chi u, n = là s l ng các ng i dùng cùng đ nh giá 2 s n

phẩm i và j Độ t ng t gi a ch ng đ c đo a trên tính toán cosine góc

gi a 2 véc-t đ Trong ma trận đ nh gi m x n, độ t ng t gi a hai s n

phẩm i và j, bi u diễn là sim(i,j) đ c cho bởi công th c:

Sim(i,j) = Cosine( , ) = = (2.1)

Trong đ :

ru : là đ nh gi c a ng i dùng u v i s n phẩm i

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Uij: là tập c c ng i ng đ đ nh gi c 2 s n phẩm i,j

20

M i một s n phẩm đ c đ nh gi ởi n ng i ng và đ c x c đ nh nh là 1

véc-t n chi u trong công th c này, ở đ y nh ng ng i ng đ c ch n là

nh ng ng i đ đ nh gi c 2 s n phẩm i và j Nh vậy theo công th c ở trên,

k t qu là Cosine c a góc h p gi a 2 véc-t đ Và v c c đ nh gi là ng

nên, Cosine c a 2 véc-t ằng 1 th hiện 2 s n phẩm t ng t nhau hoàn toàn

v i nh ng đ nh gi c a ng i dùng, cosine c a 2 véc-t bằng 0, th hiện 2

s n phẩm này không t ng t nhau.

D a vào công th c 2.1 tính độ t ng t và b ng 2.1 đ nh giá ng i

dùng v i các s n phẩm, ta có:

p2 0.891 1.000 0.739 0.824 0.894 0.522 1.000 1.000 1.000

p1 1.000 0.891 0.830 0.747 0.646 1.000 0.000 0.000 0.747

p7 0.000 1.000 0.894 1.000 0.949 0.854 1.000 0.713 1.000

p4 0.747 0.824 0.739 1.000 1.000 0.998 1.000 1.000 0.949

p8 0.000 1.000 0.990 1.000 1.000 0.955 0.713 1.000 0.949

p6 1.000 0.522 0.659 0.998 0.891 1.000 0.854 0.955 0.614

p3 0.830 0.739 1.000 0.739 0.707 0.659 0.894 0.990 0.992

p1 p2 p3 p4 p5 p6 p7 p8 p9

p9 p5 0.747 0.646 1.000 0.894 0.992 0.707 0.949 1.000 0.990 1.000 0.614 0.891 1.000 0.949 0.949 1.000 1.000 0.990 B ng 2.2 th hiện độ t ng t gi a các s n phẩm theo c ch t nh độ

Bảng 2.2. B ng t nh độ t ng t theo công th c Cosine

t ng t cosine. Sim(i,j) th hiện độ t ng t c a 2 s n phẩm i, j, v i nh ng

c p s n phẩm c ng đ c đ nh gi Gi tr này ao động từ 0-1, v i ngh a 1

là nh ng s n phẩm có giá tr t ng t nhau hoàn toàn, giá tr độ t ng t c a

2 s n phẩm càng cao c ngh a là 2 s n phẩm đ kh năng đ c đ nh gi

t ng đ ng nhau bởi ng i dùng.

2.1.1.2 Độ tương tự tương quan

Độ t ng t c a 2 s n phẩm i, j đ c cho bởi công th c sau:

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Sim(i,j) = (2.2)

21

Trong đ :

Uij = {u ∈ U| ru ≠ Ø ru ≠ Ø}| là tập t t c ng i ng c ng đ nh gi s n

phẩm i và s n phẩm j.

ru là đ nh giá c a ng i dùng u v i s n phẩm i.

là đ nh gi trung nh cho s n phẩm i.

D a vào công th c 2.2 tính độ t ng t và b ng 2.1 đ nh giá ng i

dùng v i các s n phẩm , ta có:

p1

p2

p3

p4

p5

p6

p7

p8

p9

1.000

0.634

0.526

0.031

0.165

-1.000

0.000

0.000

0.453

p1

0.634

1.000

-0.140

0.611

0.774

-0.281

1.000

1.000

1.000

p2

0.526

-0.140

1.000

0.288

-0.669

-0.225

0.486

0.866

0.995

p3

0.031

0.611

0.288

1.000

1.000

0.497

1.000

-1.000

0.110

p4

0.165

0.774

-0.669

1.000

1.000

0.584

0.872

1.000

0.954

p5

-1.000

-0.281

-0.225

0.497

0.584

1.000

0.615

0.855

-0.122

p6

0.000

1.000

0.486

1.000

0.872

0.615

1.000

0.217

-1.000

p7

0.000

1.000

0.866

-1.000

1.000

0.855

0.217

1.000

0.857

p8

0.453

1.000

0.995

0.110

0.954

-0.122

-1.000

0.857

1.000

p9

Bảng 2.3. B ng t nh độ t ng t theo công th c t ng quan

B ng 2.3 th hiện độ t ng t c a 2 s n phẩm i, j theo công th c tính

độ t ng t t ng quan Kho ng giá tr nằm trong đo n [-1,1] th hiện m c

độ t ng t theo m c tăng n. Giá tr độ t ng t càng l n th hiện s t ng

đ ng v m t đ nh gi c a 2 s n phẩm i, j. S tham gia c a giá tr đ nh gi

trung nh làm tăng t nh kh ch quan đ i v i c c đ nh gi l n s n phẩm.

2.1.1.3 Độ tƣơng tự Cosine điều chỉnh

Tính toán độ t ng t s dụng độ đo osine trong tr ng h p d a trên

s n phẩm có một s trở ng i quan tr ng: nh ng s khác nhau trong thang

đ nh gi gi a c c ng i ng kh c nhau không đ c đ a vào tài kho n Độ

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

t ng t Cosine đi u ch nh khắc phục nh c đi m này bằng cách trừ trung

22

nh ng i dùng t ng ng v i m i c p đ nh gi Độ t ng t gi a s n phẩm

i và j đ c cho bởi công th c sau:

sim(i,j)= (2.3)

Trong đ :

Uij = {u ∈ U| ru ≠ Ø ru ≠ Ø }là tập t t c các ng i dùng đ nh giá hai

s n phẩm i, j.

: Là trung bình cộng c c đ nh gi kh c Ø c a ng i dùng u.

ru : Là đ nh gi c a ng i dùng u v i s n phẩm i.

D a vào công th c 2.3 tính độ t ng t và b ng 2.1 đ nh giá ng i dùng v i

các s n phẩm, ta có:

p1

p2

p3

p4

p5

p6

p7

p8

p9

1.000

-0.098

0.121

-0.847

-0.992

0.600

0.000

0.000

-0.496

p1

-0.098

1.000

0.413

-0.600

-0.447

-0.747

-1.000

1.000

1.000

p2

0.121

0.413

1.000

-0.986

0.000

-0.726

-0.956

0.800

0.894

p3

-0.847

-0.600

-0.986

1.000

-1.000

-0.083

1.000

1.000

-0.894

p4

-0.992

-0.447

0.000

-1.000

1.000

0.440

0.447

-1.000

0.600

p5

0.600

-0.747

-0.726

-0.083

0.440

1.000

-0.109

-0.866

-0.759

p6

0.000

-1.000

-0.956

1.000

0.447

-0.109

1.000

-0.158

1.000

p7

0.000

1.000

0.800

1.000

-1.000

-0.866

-0.158

1.000

-0.447

p8

-0.496

1.000

0.894

-0.894

0.600

-0.759

-1.000

-0.447

1.000

p9

Bảng 2.4. B ng t nh độ t ng t theo công th c Cosine đi u ch nh

B ng 2.4 th hiện độ t ng t c a 2 s n phẩm i, j theo công th c tính

độ t ng t cosine đi u ch nh. Kho ng giá tr nằm trong đo n [-1, 1] th hiện

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

m c độ t ng t theo m c tăng n. Giá tr độ t ng t càng l n th hiện s

23

t ng đ ng v m t đ nh gi c a 2 s n phẩm i, j. S thay đổi c a công th c

t nh độ t ng t này so v i công th c t nh độ t ng t Cosine là s tham gia

c a giá tr đ nh gi trung nh , đ nh gi trung nh c a c c ng i dùng

đ i v i các s n phẩm mà ng i dùng u đ đ nh gi Xem xét giá tr này,

gi s 1 ng i s dụng u đ nh gi 1 s n phẩm v i giá tr đ nh giá [1, 5] , v i

ng i u này cho đ nh gi 1 v i các s n phẩm h không thích và 3 v i cách

s n phẩm h r t thích, một ng i ng u’ đ nh gi c c s n phẩm h không

thích là 3 và nh ng s n phẩm h thích là 5, giá tr s trở thành giá tr phân

biệt gi a thích và không thích, t o ra s c n đ i h n v i các giá tr r tham gia

đ nh giá trong công th c t nh độ t ng t .

2.1.2.Tính toán dự đoán và tư vấn

c quan tr ng nh t c a hệ th ng l c cộng tác là đ a ra k t qu d

đo n Ph n tr n đ đ a ra nh ng s n phẩm t ng t nh t d a tr n độ t ng

t c ti p theo là nghiên c u kỹ mục tiêu x p h ng c a ng i dùng và s

dụng kỹ thuật đ thu đ c d đo n

D đo n đ nh gi c a một ng i dùng lên một s n phẩm đ c suy ra từ các

đ nh gi c a ng i ng đ tr n c c s n phẩm lân cận.

2.1.2.1 Công thức dự đoán dựa trên trung bình đ nh gi sản phẩm lân cận

D a vào công th c đ n gi n nh t đ d đo n c a 1 ng i dùng u

lên 1 s n phẩm i là d a vào nh ng ng i dùng lân cận c a u mà đ đ nh

giá s n phẩm i.

Trong đ :

(2.4) Pa =

N: là tổng các s n phẩm lân cận c a i đ đ c a đ nh gi

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Ti: là tập h p các s n phẩm i’ l n cận v i i mà u đ đ nh gi

24

V n đ là ch n ra các s n phẩm i' v i c c ti u ch nh th nào, trong bài

toán này, k t qu phụ thuộc vào tiêu chí ch n ra các lận cận c a s n phẩm i.

Ví dụ: Gi s v i ví dụ đ c cho ở b ng 2.1. Xét v i các i’ là nh ng

s n phẩm mà u đ đ nh gi và i' là lân cận v i i n u Sim(i, i') 0

Tr ng h p Sim(i, j) đ c tính theo công th c tính độ t ng t Adjusted

Cosine. Áp dụng công th c ta có th d đo n nh sau cho ng i dùng u1 v i

nh ng s n phẩm mà h ch a đ nh gi nh sau:

Bảng 2.5. B ng d đo n và t v n theo ph ng ph p t nh trung nh đo n

S n phẩm ch a đ nh gi D đo n T v n(N=3) u1

7 2.667

8 2.667

5 2.667 7,8,5 1

9 2.25

6 2.25

2.1.2.2 Công thức dự đo n dựa trên tổng trọng số

D đo n đ nh gi c a ng i dùng a v i s n phẩm i đ c cho bởi công

th c sau:

(2.5) Pa =

Trong đ :

Sa: Các s n phẩm mà ng i ng a đ đ nh gi .

: Là đ nh gi s n phẩm j c a ng i dùng a. ra

Sim(i,j): Là độ t ng t c a 2 s n phẩm i, j.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Ti: Tập các s n phẩm lân cận c a s n phẩm i.

25

Công th c t nh to n đ nh gi c a ng i dùng a lên s n phẩm i d a

vào nh ng đ nh gi c a ng i dùng a lên các s n phẩm t ng t v i i. Giá tr

d đo n s nằm trong kho ng [1 5] Tr ng h p d đo n s cho k t qu cao

(ng i dùng a thích s n phẩm i) khi nh ng s n phẩm lân cận v i i (c độ

t ng t cao) đ c ng i ng a đ nh gi cao

Tr ng h p Sim(i, j) đ c tính theo công th c tính độ t ng t Adjusted

Cosine. V i s liệu đ c cho ở B ng 2.1, cho các lân cận c a s n phẩm i là

tập các s n phẩm mà c độ t ng t khác 0. Ta có th d đo n nh sau cho

ng i dùng u1 v i nh ng s n phẩm mà h ch a đ nh gi nh sau:

Bảng 2.6. B ng d đo n và t v n theo ph ng ph p Weigth Sum

S n phẩm ch a đ nh gi D đo n T v n(N=3) u1

7 3.669

8 2.786

1 6 2.304 7,8,6

5 1.677

9 1.237

2.1.2.3 Công thức dự đo n dựa trên tổng trọng số với đ nh gi trung bình

của người dùng

(2.6) Pa =

Trong đ :

Sa: Các s n phẩm mà ng i ng a đ đ nh gi .

: Là đ nh gi s n phẩm j c a ng i dùng a. ra

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Sim(i, j): Là độ t ng t c a 2 s n phẩm i, j.

26

Ti: Tập các s n phẩm lân cận c a c a s n phẩm i.

: Là đ nh gi trung nh c a ng i dùng a.

Công th c t nh to n đ nh gi c a ng i dùng a lên s n phẩm i d a vào

nh ng đ nh gi c a ng i dùng a lên các s n phẩm t ng t v i i. Giá tr

đ nh gi trung nh c a ng i dùng a là R nhằm làm tăng t nh c n đ i c a

ng i dùng a lên s n phẩm. Giá tr R c a m i ng i dùng là là một m c đ

x c đ nh ng i dùng đ đ nh gi cao hay không cao một s n phẩm. Giá tr d

đo n s nằm trong kho ng [1 5] Tr ng h p d đo n s cho k t qu cao

(ng i dùng a thích s n phẩm i) khi nh ng s n phẩm lân cận v i i (c độ

t ng t cao) đ c ng i ng a đ nh gi cao

Tr ng h p sim(i, j) đ c tính theo công th c tính độ t ng t

Adjusted cosine. V i s liệu đ c cho ở B ng 2.2, cho các lân cận c a s n

phẩm i là tập các s n phẩm mà c độ t ng t khác 0. Ta có th d đo n nh

sau cho ng i dùng u1 v i nh ng s n phẩm mà h ch a đ nh gi nh sau:

Bảng 2.7. B ng d đo n và t v n theo ph ng ph p tổng tr ng s v i đ nh

giá trung bình c a ng i dùng và s dụng độ t ng t Ajusted Cosine

S n phẩm ch a đ nh gi D đo n T v n(N=3) u1

7 3.669

8 2.786

6 2.304 7,8,6 1

5 1.677

9 1.237

2.1.2.4 Công thức dự đo n dựa trên tổng trọng số với trung bình đ nh gi l n

sản phẩm

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

(2.7) Pa =

27

Trong đ :

Sa: Là các s n phẩm mà ng i ng a đ đ nh gi .

: Là đ nh gi s n phẩm j c a ng i dùng a. ra

Sim(i, j): Là độ t ng t c a 2 s n phẩm i, j.

Ti: Tập các s n phẩm lân cận c a c a s n phẩm i.

: Là đ nh gi trung nh s n phẩm i.

Công th c t nh to n đ nh gi c a ng i dùng a lên s n phẩm i d a vào

nh ng đ nh gi c a ng i dùng a lên các s n phẩm t ng t v i i. là giá tr

đ nh gi trung nh s n phẩm i c a c c ng i dùng. Giá tr c a m i s n

phẩm là một m c đ x c đ nh khi 1 ng i ng đ nh gi s n phẩm i , thì so

v i t t c c c ng i dùng đ nh gi c a ng i đ cho s n phẩm i đ là cao

hay không cao. Giá tr d đo n s nằm trong kho ng [1 5] Tr ng h p d

đo n s cho k t qu cao (ng i dùng a thích s n phẩm i) khi nh ng s n phẩm

lân cận v i i (c độ t ng t cao) đ c ng i ng a đ nh giá cao.

Tr ng h p sim (i j) đ c tính theo công th c t nh độ t ng t

Adjusted cosine. V i s liệu đ c cho ở B ng 2.2, cho các lân cận c a s n

phẩm i là tập các s n phẩm mà c độ t ng t khác 0. Ta có th d đo n nh

sau cho ng i dùng u1 v i nh ng s n phẩm mà h ch a đ nh gi nh sau:

Bảng 2.8. B ng d đo n và t v n theo ph ng ph p tổng tr ng s v i đ nh

giá trung bình s n phẩm và s dụng độ t ng t Ajusted Cosine.

S n phẩm ch a đ nh gi D đo n T v n(N=3) u1

7 3.635

6 2.988

1 9 2.509 7,6,9

5 2.347

8 1.881

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

2.1.3. Thuật toán lọc cộng tác dựa trên sản phẩm

28

Function Cosine(a[], b[])

Begin

ab, a2, b2 = 0;

For (i= …n) do

If (a[i]<>0) and (b[i]<>0) then

Begin

ab = a[i] * b[i] + ab;

a2 = a[i] * a[i] + a2;

b2 = b[i] * b[i] + b2;

end;

return ab/(sqrt(a2)*sqrt(b2));

End;

2.1.3. Độ tương tự Cosine

Độ ph c t p thuật to n độ đo osine: O(n) v i n là s l ng ph n t

2.1.3.2 Độ tương tự Cosine điều chỉnh

Function CosineDieuChinh(a[], b[])

Begin

ab, a2, b2 = 0;

tb_a, tb_b = 0, num_a=0, num_b = 0;

for (i=1..n) do

begin

if (a[i]>0) then

begin

tb_a = tb_a + a[i];

num_a = num_a + 1;

end;

if (b[i]>0) then

begin

tb_b = tb_b + b[i];

num_b = num_b + 1;

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

c a m ng a và b

end;

end;

tb_a = tb_a / num_a;

tb_b = tb_b/num_b;

For (i= …n) do

If (a[i]<>0) and (b[i]<>0) then

Begin

ab = (a[i] - tb_a) * (b[i] - tb_b) + ab;

a2 = (a[i] - tb_a) * (a[i] - tb_a) + a2;

b2 = (b[i] - tb_b) * (b[i] - tb_b) + b2;

end;

return ab/(sqrt(a2)*sqrt(b2));

End;

29

Độ ph c t p thuật to n độ đo osine: O(n) v i n là s l ng ph n t

c a m ng a và b

Function DuDoan(user, item, lancan)

Begin

Tong=0; dem=0;

For (i=1..n) do

If (R[user,i]>0) and (Cosine[i,item]==lancan) then

Begin

Tong = tong + R[user,i];

Dem = dem+1;

End;

return Tong / Dem;

End;

2.1.3.3 Dự đo n dựa tr n trung bình đ nh gi sản phẩm lân cận

Độ ph c t p thuật toán d đo n a tr n trung nh đ nh gi : O(n) v i

n là s l ng s n phẩm

Function Weighted_Sum(user, item, lancan)

Begin

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

2.1.3.4 Dự đo n dựa trên tổng trọng số

S = 0; n = 0;

For (i=1..n) do

If (R[user,i]>=0) and (sim[item,i] == lancan) then

Begin

S = R[user,i] * Sim[item,i] + S;

n = Abs(sim[item,i]) + n;

end;

return s/n;

End;

30

Độ ph c t p thuật toán d đo n a trên Weighted Sum: O(n) v i n là

s l ng s n phẩm

Function DuDoan3(user, item, lancan)

Begin

S = 0; n = 0;

tb = 0, num = 0;

for (i=1..n) do

if (R[user,i]>0) then

begin

tb = tb + R[user, i];

num = num + 1;

end;

tb = tb / num;

For (i=1..n) do

If (R[user,i]>=0) and (sim[item,i] == lancan) then

Begin

S = (R[user,i] - tb) * Sim[item,i] + S;

n = Abs(sim[item,i]) + n;

end;

return tb + s/n;

End;

2.1.3.5 Dự đo n dựa trên tổng trọng số với trung bình đ nh gi l n người dùng

Độ ph c t p thuật toán d đo n a trên tổng tr ng s v i đ nh gi trung nh

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

ng i dùng: O(n) v i n là s l ng s n phẩm.

31

2.1.4. Đánh giá các yếu tố ảnh hưởng đến độ chính xác kết quả tư vấn

Một hệ t v n t t khi đ xu t đ c nh ng s n phẩm mà ng i ng đ

D liệu đ u vào

Đ nh gi ch t l ng d đo n

T v n danh sách s n phẩm cho ng i dùng

Ti n x lý d liệu

Ch n Top N

Tính sai s

Ma trận đ nh giá

Đ nh gi s n phẩm

T nh to n độ t ng t

D đo n và t v n

D đo n đ nh gi ng i dùng lên s n phẩm

Ch n lân cận

Ma trận độ t ng t

s thích và ch n l a.

Hình 2.1. Mô hình hệ th ng l c cộng tác d a trên s n phẩm

2.1.4. Đ nh gi chất lượng của hệ thống tư vấn

Hệ th ng t v n s dụng Độ chính xác (Precision) Độ nh y(Recall) và

F-Measure đ đ nh gi ch t l ng hệ th ng t v n

Độ chính xác = Số sản phẩm tư vấn chính xác/ Tổng số sản phẩm tư vấn.

Độ nhạy = Số sản phẩm tư vấn chính xác/ Tổng số sản phẩm.

F-Measure = 2(Độ chính xác * Độ nhạy)/( Độ chính xác + Độ nhạy)

2.1.4.2 Các yếu tố ảnh hưởng đến độ chính x c tư vấn

- nh h ởng c a d liệu đ u vào: Trong nhi u hệ th ng t v n, s

nh ng đ nh gi thu đ c th ng r t nh so v i s nh ng đ nh gi c n có cho

d đo n S thành công c a hệ th ng t v n l c cộng tác phụ thuộc vào giá tr

c a đ i đa s nh ng ng i dùng chính.

- nh h ởng c a thuật to n t nh độ t ng t : Đ xây d ng ma trận

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

t ng t , các giá tr đ c tính toán theo một công th c đ c đ xu t ở trên

32

ho c một công th c khác. Các công th c tính toán khác nhau s cho ra các ma

trận đ nh gi kh c nhau n đ n k t qu t v n không đ ng nh t. Nhi u

chuy n gia đ nh gi v i thuật toán có s tham gia c a đ nh gi trung nh s

có k t qu t t h n (Độ t ng t t ng quan và Độ t ng t osin đi u ch nh)

- nh h ởng c a s l ng lân cận tham gia vào d đo n: Thông qua

quá trình tính ma trận t ng t , hệ th ng t v n s dụng nh ng s n phẩm lân

cận nh t v i s n phẩm đang xét đ đ a vào đo n s l ng lân cận nh

h ởng đ n ch t l ng c a k t qu t v n.

2.2. Lọc cộng tác dự tr n mô hình đồ thị

L c cộng tác có th xem xét nh bài toán tìm ki m trên đ th d a trên

bi u diễn m i quan hệ đ nh gi c a ng i dùng đ i v i các s n phẩm. Mục

này trình bày một mô h nh đ th cho l c cộng tác.

2.2.1. Phương pháp biểu diễn đồ thị

Mô h nh đ th cho l c cộng tác có th mô t nh sau. Cho ma trận

đ nh giá đ u vào c a l c cộng tác R = (rij). G i X = (xij) là ma trận c p N×M

có các ph n t đ c xác đ nh theo công th c(2.8). Trong đ xij = 1 t ng

ng v i tr ng th i ng i dùng ui đ đ nh gi s n phẩm pj, xij = 0 t ng ng

(2.8) xij = v i tr ng th i ng i d ng ch a đ nh gi s n phẩm pj. if rij otherwise

Đ th bi u diễn đ nh gi c a ng i ng đ i v i các s n phẩm (G i tắt

là Ng i dùng - S n phẩm) G = (V E) đ c bi u diễn theo ma trận X, trong

đ nh V = U ∪ P ( U là tập ng i dùng, P là tập s n phẩm); tập c nh E bao

g m tập các c nh bi u diễn đ nh gi c a ng i dùng đ i v i s n phẩm. C nh

n i gi a đ nh ui ∈ U và đ nh pj ∈ P đ c thi t lập n u ng i dùng ui đ

đ nh giá s n phẩm pj ( xij = 1 ). Tr ng s c a m i c nh đ c l y t ng ng là

rij. Nh vậy, trong bi u diễn này đ th Ng i dùng- S n phẩm có hai lo i

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

c nh: C nh có tr ng s ng rij = +1 bi u diễn ng i dùng ui“th ch” s n

33

phẩm pj, c nh có tr ng s âm rij = -1 bi u diễn ng i dùng ui “không th ch”

s n phẩm pj.

Ví dụ 2.2. Hệ g m 5 ng i dùng U = {u1, u2, u3, u4, u5}, 7 lo i s a P

={p1, p2, p3, p4, p5, p6, p7,}. Ma trận đ nh giá rij đ c cho trong b ng 2.9. Gi

s p1, p2, p4, p5, p6 có đ c tr ng s a dành cho tr c1 "suy dinh d ng"; p3, p4,

p5, p7 có đ c tr ng c2 "cao to kh e".

Ng i

S n phẩm

dùng

p1

p2

p3

p4

p5

p6

p7

1

Ø

Ø

1

Ø

1

Ø

u1

Ø

1

1

1

1

Ø

1

u2

1

1

1

1

Ø

Ø

1

u3

1

1

Ø

Ø

1

1

1

u4

?

1

?

1

1

1

?

u5

Bảng 2.9. Ma trận đ nh gi R

v i ma trận đ nh gi R đ c cho trong B ng 2.9 thì ma trận X đ c th hiện

nh B ng 2.10.

Ng i

S n phẩm

dùng

p1

p2

p3

p4

p5

p6

p7

1

0

0

1

0

1

0

u1

0

1

1

1

1

0

1

u2

1

1

1

1

0

0

1

u3

1

1

0

0

1

1

1

u4

0

1

0

1

1

1

0

u5

Bảng 2.10. Ma trận X bi u diễn đ nh đ th Ng i dùng- S n phẩm

Đ th Ng i dùng- S n phẩm có hai lo i c nh: C nh có tr ng s

ng rij = +1 bi u diễn ng i dùng ui“th ch” s n phẩm pj, c nh có tr ng s

âm rij = -1 bi u diễn ng i dùng ui “không th ch” s n phẩm pj. Khi đ đ th

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

đ c bi u diễn nh Hình 2.2.

p7

p1

p2

p3

p4

p5

p6

+1

+1

+1

+1

-1

-1

-1

+1

-1

-1

+1

-1

+1

-1

+1

-1

-1

+1

+1

+1

-1

+1

-1

u1

u2

u3

u4

u5

34

Hình 2.2. Đ th ng i dùng - s n phẩm

2.2.2. Phương pháp dự đoán trên đồ thị người dùng - sản phẩm

c ph ng ph p l c cộng tác d a tr n độ t ng quan th c hiện bằng

c ch x c đ nh nh ng ng i ng t ng t nh t v i ng i dùng hiện th i đ

t o n n t v n. Trong ví dụ trên dễ dàng nhận th y u5 t ng t nh t v i u2, u3

và u4 vì u5, u2, u3 c ng “th ch” p2 và u5, u4 c ng “th ch” p5. D a trên m c độ

t ng t này, các s n phẩm p3, p4 và p7 s đ c t v n cho ng i dùng u5.

Cách làm trên có th đ c th c hiện dễ dàng trên mô hình đ th bằng

cách xem xét các đ ng đi độ dài 3 từ đ nh ng i dùng đ n đ nh s n phẩm,

nh ng s n phẩm nào có nhi u s đ ng đi độ dài 3 từ đ nh ng i dùng hiện

th i đ n đ nh s n phẩm s đ c dùng đ t o n n t v n. Ví dụ ta c n phân bổ

s n phẩm cho ng i dùng u5, các đ ng đi u5-p5-u4-p7, u5-p2-u2-p4, u5-p2-u3-

p3, u5-p2-u3-p7 đ c xem xét đ n trong khi d đo n c c s n phẩm cho u5.

Nh ng s n phẩm có nhi u đ ng đi nh t đ n u5 s đ c ng đ t v n. Ví

dụ p7 có nhi u đ ng đi độ ài 3 h n so v i p3và p4(u5-p5-u4-p7, u5-p2-u3-

p7) s đ c t v n cho u5.

H n th n a ph ng ph p l c d a trên độ t ng quan s không bao

gi đ c xem xét đ n p1 trong các kh năng t v n vì u5 và u1 đ c xác đ nh

là không t ng t nhau. Đi u này không đ ng trong tr ng h p d liệu th a

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

c a l c cộng tác, u5 và u1 không t ng t nhau vì chúng có quá ít d liệu đ nh

35

gi đ th c hiện t nh to n Nh c đi m này có th khắc phục tr n mô h nh đ

th bằng cách mở rộng ph ng ph p đo n đ n c c đ ng đi độ dài l l n

h n 3 (5 7 9 ) Nh ng s n phẩm có nhi u đ ng đi nh t đ n n đ c dùng

đ t v n cho ng i dùng hiện th i. V i cách làm này, p1 c ng đ c xem xét

đ n v c đ ng đi độ dài 5 (u5-p2-u2-p4-u1-p1) Ph ng ph p đo n tr n đ

th Ng i dùng - S n phẩm có th đ c th c hiện thông qua c c c sau:

2.2. . . T ch đồ thị Người dùng-Sản phẩm thành c c đồ thị con

Trong s các đ ng đi từ ui đ n pj, ta xem xét đ n hai lo i đ ng đi:

Đ ng đi theo các c nh có tr ng s ng (v ụ đ ng đi u5-p2-u3-p3) và

đ ng đi theo c c c nh có tr ng s âm (ví dụ đ ng đi u5-p4-u3-p1) Đ tính

toán hiệu qu cho m i lo i đ ng đi ta t ch đ th Ng i dùng-S n phẩm

thành hai đ th con: Đ th con ch bao g m các c nh có tr ng s ng và

đ th con ch bao g m các c nh có tr ng s âm.

Cho đ th Ng i dùng - S n phẩm G =(V, E) đ c bi u diễn theo ma ) ma trận c p N×M đ c xác đ nh trận X= (xij) c p N×M. Ký hiệu X+ = (x+ ij ) là ma trận c p N×M đ c x c đ nh theo công th c (2.9).Ký hiệu X- = (x- ij

theo công th c (2.10).

if rij > 0 otherwise

x = (2.9)

if rij < 0 otherwise

x = (2.10)

E

ij Đ th G- = (V, E-) đ c bi u diễn theo ma trận X có tập đ nh đ ng ằng tập đ nh c a G, có tập c nh E bao g m các c nh có tr ng s âm c a G.

Đ th G+ = (V, E+) đ c bi u diễn theo ma trận X+ có tập đ nh đ ng ằng tập đ nh c a G, có tập c nh E+ bao g m các c nh có tr ng s ng c a G. (2.11) E+ =

=

E

ij

E- (2.12)

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Ví dụ 2.3: V i ma trận đ nh gi R đ c cho trong B ng 2.9 đ th G đ c bi u diễn theo ma trận X trong B ng 2.10 thì ma trận X+, X- đ c th hiện

36

p1

p2

p3

p4

p5

p6

p7

+1

+1

+1

+1

+1

+1

+1

+1

+1

+1

+1

+1

u1

u2

u3

u4

u5

S n phẩm p4 1 1 0 0 0 p7 0 0 1 1 0 p1 1 0 0 0 0 p2 0 1 1 0 1 p5 0 0 0 1 1 p3 0 0 1 0 0 p6 0 0 0 0 1 trong B ng 2.11 và B ng 2.12 Đ th G+, G t ng ng đ c bi u diễn theo Hình 2.3 và Hình 2.4. Bảng 2.12. Ma trận X+ bi u diễn c c đ nh gi th ch h p S n phẩm Ng i dùng Ng i dùng u1 u2 u3 u4 u5

Hình 2.3. Đ th G bi u diễn c ch đ nh gi th ch h p Bảng 2.12. Ma trận X- bi u diễn c c đ nh gi không th ch h p

Ng i S n phẩm

dùng p1 p2 p3 p4 p5 p6 p7

0 0 1 0 0 1 0 u1

0 0 1 0 1 0 1 u2

1 0 0 1 1 0 0 u3

1 1 0 0 1 1 0 u4

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

0 0 0 1 1 0 0 u5

p7

p1

p2

p3

p4

p5

p6

-1

-1

-1

-1

-1

-1

-1

-1

-1

-1

-1

u1

u2

u3

u4

u5

37

Hình 2.4. Đ th G bi u diễn c ch đ nh gi không th ch h p

2.2. . . Phương ph p dự đo n tr n đồ thị có trọng số dương G+

Tr ng s đ ng đi từ đ nh ng i dùng ui đ n đ nh s n phẩm pj theo các

c nh có tr ng s ng đ c ghi nhận là một s ng ph n ánh m c độ

“th ch”c a s n phẩm đ i v i ng i dùng. Nh ng đ ng đi c độ dài l n s

đ c đ nh tr ng s th p, nh ng đ ng đi c độ dài nh đ c đ nh tr ng s

cao. Nh ng s n phẩm nào có tr ng s cao s đ c ng đ t v n cho ng i

dùng hiện th i.

Ph ng pháp d đo n tr n đ th G+ đ c Huang đ xu t d a trên việc

tính toán tr ng s các đ ng đi từ đ nh ng i dùng đ n đ nh s n phẩm [7].

Nh ng s n phẩm nào có tr ng s cao nh t s đ c dùng đ t v n cho ng i

dùng hiện th i.

Đ ý rằng, đ th G, G+, G- đ u là nh ng đ th hai phía, một phía là các

đ nh ng i dùng, phía còn l i là các đ nh s n phẩm. Do vậy, các đ ng đi từ

đ nh ng i ng đ n đ nh s n phẩm luôn c độ dài l .

Đ i v i đ th hai phía, s c c đ ng đi độ dài L xu t phát từ một đ nh

b t kỳ thuộc ph a ng i dùng đ n đ nh b t kỳ thuộc phía s n phẩm đ c xác đ nh theo công th c 2.13, trong đ X là ma trận bi u diễn đ th hai phía, XT

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

if L=1 if L=3 5 7…

là ma trận chuy n v c a X, L là độ ài đ ng đi

38

(2.13)

X =

Đ ghi nhận tr ng s c a các đ ng đi từ đ nh s n phẩm đ n đ nh ng i ng tr n đ th G+ sao cho nh ng đ ng đi ài có tr ng s th p, nh ng

đ ng đi ngắn có tr ng s cao, ta s dụng hằng kh nhiễu α(0<α≤1) theo công th c (2.14) trong đ X+ là ma trận bi u diễn đ th G+,(X+)T là ma trận chuy n v c a X+, L là độ ài đ ng đi Thuật toán d đo n tr n đ th G+

đ c th hiện trong:

if L=1 if L=3 5 7…

(X+) = (2.14)

Thuật toán dự đoán tr n đồ thị G+

Đầu vào: • Ma trận X+ là biểu diễn của đồ thị G+;

Đầu ra:

• K sản phẩm có trọng số cao nhất chưa được người dùng đ nh gi

C c bước thực hiện: Bước 1. Tìm trọng số c c đường đi độ dài lẻ L tr n đồ thị G+ sao cho các

đường đi độ có dài nhỏ được đ nh trọng số cao, các đường đi có độ dài lớn

được đ nh trọng số thấp.

if L=1 if L=3 5 7…

(X+) =

Bước 2. Sắp xếp các sản phẩm theo thứ tự giảm dần của trọng số (X+)

Bước 3. Chọn K sản phẩm có trọng số cao nhất chưa được đ nh gi để tư

vấn cho người dùng hiện thời.

Độ ph c t p thuật toán d đo n tr n đ th G+ là O(L.N2.376) Trong đ

L là độ dài đ ng đi từ đ nh ng i dùng đ n đ nh s n phẩm, N là s l ng

ng i dùng.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Ví dụ 2.4:

39

Ví dụ v i ma trận X+ bi u diễn đ th G+ trong B ng 2.12, l y α = 0.5, L

= 5. Gi s ta c n t v n K = 2 s n phẩm cho ng i ng u5 khi đ thuật

toán th c hiện nh sau:

Bước 1: s c c đ ng đi độ dài 5 từ đ nh ng i ng đ n đ nh s n

0.250 0.125 0.000 0.375 0.000 0.000 0.000

0.125 0.500 0.125 0.375 0.125 0.125 0.125 0.000 0.625 0.375 0.125 0.250 0.125 0.500

(X+)

=

0.000 0.250 0.125 0.000 0.375 0.125 0.375 0.000 0.625 0.125 0.125 0.500 0.375 0.250

0.15625 0.18750 0.03125 0.28125 0.03125 0.03125 0.03125

(X+) =

0.12500 0.59375 0.18750 0.34375 0.25000 0.18750 0.25000 0.03125 0.81250 0.37500 0.21875 0.43750 0.25000 0.56250

0.00000 0.43750 0.18750 0.06250 0.37500 0.18750 0.37500 0.03125 0.81250 0.25000 0.21875 0.56250 0.37500 0.43750

phẩm đ c x c đ nh theo công th c (2.14) Khi đ

Bước 2: Sắp x p các s n phẩm theo th t gi m d n c a tr ng s cho

Bước 3: Ch n K=2 s n phẩm ch a đ c ng i ng đánh giá có

ng i dùng u5 ta nhận đ c: p2, p5, p7, p6, p3, p4, p1. tr ng s cao đ t v n cho u5 ta nhận đ c: p3, p7. 2.2. .3. Phương pháp dự đo n tr n đồ thị có trọng số âm G-

Tr ng s đ ng đi từ đ nh ng i ng ui đ n đ nh s n phẩm theo các

c nh có tr ng s m đ c ghi nhận là một s âm ph n ánh m c độ “không

th ch” c a ng i ng đ i v i s n phẩm. Nh ng đ ng đi c độ dài l n s

đ c đ nh tr ng s cao, nh ng đ ng đi c độ dài nh đ c đ nh tr ng s

th p. Nh ng s n phẩm nào có tr ng s th p đ c lo i b ra kh i danh sách

các s n phẩm c n t v n cho ng i dùng hiện hiện th i.

Đ xem xét nh h ởng c c đ nh gi “không th ch” vào qu tr nh

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

đo n ta c th c l ng m c độ đ ng g p c a c c đ nh gi này tr n đ th G bằng cách ph đ nh l i ph ng ph p đo n tr n đ th G+ .

40

Cụ th ph ng pháp thay th việc d đo n tr n đ th G+ bằng đ th G-

Thay việc c l ng tr ng s đ ng đi từ đ nh ng i ng đ n đ nh s n

phẩm dài s có tr ng s th p đ ng đi ngắn có tr ng s cao bằng việc c

l ng tr ng s các đ ng đi ài có tr ng s cao, đ ng đi ngắn có tr ng s

th p. Thay việc s dụng hằng s kh nhiễu +α bằng hằng s kh nhiễu -α đ

tr ng s c c đ ng đi luôn m và tăng n theo độ ài đ ng đi Thay việc

sắp x p các s n phẩm theo th t gi m d n c a tr ng s bằng việc sắp x p các

s n phẩm theo th t tăng n c a tr ng s .Thay quá trình phân bổ các s n

phẩm có tr ng s cao cho ng i dùng hiện th i bằng việc lo i b các s n

phẩm có tr ng s th p. Thuật toán dự đoán tr n đồ thị G-.

Đầu vào: • Ma trận X- là biểu diễn của đồ thị G-;

Đầu ra:

• K sản phẩm có trọng số nhỏ nhất chưa được người dùng đ nh gi

C c bước thực hiện: Bước 1. Tìm trọng số c c đường đi độ dài lẻ L tr n đồ thị G- sao cho các

đường đi độ có dài nhỏ được đ nh trọng số thấp c c đường đi có độ dài lớn được đ nh trọng số cao. (X-)

if L=1 if L=3 5 7…

(X+) =

Bước 2. Sắp xếp các sản phẩm theo thứ tự t ng dần của trọng số Bước 3. Loại bỏ K sản phẩm có trọng số (X-) thấp nhất chưa được đ nh gi

để tư vấn cho người dùng hiện thời.

Độ ph c t p thuật toán d đo n tr n đ th G là O(L.N2.376). Trong đ

L là độ dài đ ng đi từ đ nh ng i dùng đ n đ nh s n phẩm, N là s l ng

ng i dùng.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Ví dụ 2.5:

41

Ví dụ v i ma trận X- trong B ng 2.13, l y L= 5 và α=0 5 Gi s ta c n g

0.5

-0.18750 -0.15625 -0.34375 -0.03125 -0.15625 -0.34375 -0.15625

-0.03125 -0.03125 0.46875 -0.00000 -0.31250 -0.18750 -0.31250

(X+) =

-0.34375 -0.15625 -0.03125 -0.28125 -0.00000 -0.18750 -0.00000

-0.50000 -0.34375 -0.18750 -0.18750 -0.03125 -0.50000 -0.03125

-0.12500 -0.03125 -0.00000 -0.15625 -0.00000 -0.03125 -0.00000

b K=2 các s n phẩm cho ng i dùng u5 Khi đ Bước 1: T nh đ c: (X-)5

Bước 2: Sắp x p các s n phẩm theo th t tăng n c a tr ng s , ta nhận

đ c: p4, p1, p2, p6, p3, p5, p7.

Bước 3: Ch n các s n phẩm có tr ng s nh nh t ch a đ c u5 đ nh gi đ a ra kh i danh sách các s n phẩm c n t v n cho u5, ta nhận đ c: p1, p3.

2.2. .4. Phương ph p dự đo n theo tất cả đ nh gi

Một s n phẩm ng i ng “th ch” v n có th xu t hiện trong danh sách

các s n phẩm lo i b kh i qu tr nh t v n, một s n phẩm ng i ng “không

th ch” v n có th xu t hiện trong danh sách các s n phẩm c n t v n Đ ngăn

ngừa tình tr ng này, luận văn đ xu t ph ng ph p đo n tr n t t c đ nh gi Ph ng pháp d đo n tr n đ th G+ ch đ c th c hiện trên nh ng

đ nh gi “th ch” c a ng i dùng đ i v i s n phẩm ph ng ph p đo n tr n

đ th G ch đ c th c hiện trên nh ng đ nh gi “không th ch” c a ng i

ng đ i v i s n phẩm. Việc b qua nh ng đ nh gi “không th ch” c a ng i

dùng đ i v i s n phẩm có nh ng nh h ởng không nh đ n ch t l ng d

đo n v đ nh gi “th ch” hay “không th ch” đ u ph n ánh thói quen và sở

thích s dụng s n phẩm c a ng i dùng.

Trong ví dụ trên, n u th c hiện d đo n tr n đ th G+ thì p3 đ c xem là ph ng n ng đ t v n cho u5. N u th c hiện d đo n tr n đ th G thì

p3 đ c xem là ph ng n lo i b ra kh i danh sách các s n phẩm dùng đ t

v n cho u5. Đ khắc phục mâu thu n này, ta có th mở rộng ph ng ph p

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

đo n cho t t c các đ nh gi “th ch” và “không th ch” c a ng i dùng.

42

c c cụ th c a ph ng ph p đ c ti n hành.

Đầu vào: • Ma trận X+, X - là biểu diễn của đồ thịG+, G-

Đầu ra:

• K sản phẩm có trọng số cao nhất chưa được người dùng đ nh gi

Các bƣớc thực hiện: Bƣớc 1. Tính toán ma trận trọng số(X+) của c c đường đi độ dài lẻ L trên

ma trận X+ sao cho các đường đi có độ dài nhỏ được đ nh trọng số cao, các

đường đi có độ dài lớn được đ nh trọng số thấp.

if L=1 if L=3 5 7…

(X+) =

Bƣớc 2. Tính toán ma trận trọng số (X+) của c c đường đi độ dài lẻ L trên

ma trận X- sao cho các đường đi có độ dài nhỏ được đ nh trọng số thấp, các

đường đi có độ dài lớn được đ nh trọng số cao.

if L=1 if L=3 5 7…

(X-) =

Bƣớc 3 .Kết hợp ma trận trọng số (X) = (X-) + (X-)

Bƣớc 4. Sắp xếp các sản phẩm theo thứ tự t ng dần của trọng số x

Bƣớc 5. Chọn K sản phẩm có trọng số x cao nhất chưa được đ nh gi để tư

vấn cho người dùng hiện thời.

Độ ph c t p thuật toán d đo n tr n t t c đ nh gi là O(L.N2.376).

Trong đ L là độ dài đ ng đi từ đ nh ng i dùng đ n đ nh s n phẩm, N là

s l ng ng i dùng.

Ví dụ 2.6:

V i ma trận X+ trong B ng 2.12, X- trong B ng 2.13, l y L= 5 và

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

α=0 5 Gi s ta c n t v n K=2 các s n phẩm cho ng i dùng u5 Khi đ

43

0.15625 0.18750 0.03125 0.28125 0.03125 0.03125 0.03125

0.12500 0.59375 0.18750 0.34375 0.25000 0.18750 0.25000

(X+) =

0.03125 0.81250 0.37500 0.21875 0.43750 0.25000 0.56250

0.00000 0.43750 0.18750 0.06250 0.37500 0.18750 0.37500

0.03125 0.81250 0.25000 0.21875 0.56250 0.37500 0.43750

Bước 1:

-0.18750 -0.15625 -0.34375 -0.03125 -0.15625 -0.34375 -0.15625

-0.03125 -0.03125 0.46875 -0.00000 -0.31250 -0.18750 -0.31250

-0.34375 -0.15625 -0.03125 -0.28125 -0.00000 -0.18750 -0.00000

(X-) =

-0.50000 -0.34375 -0.18750 -0.18750 -0.03125 -0.50000 -0.03125

-0.12500 -0.03125 -0.00000 -0.15625 -0.00000 -0.03125 -0.00000

Bước 2:

-0.03125 +0.03125 -0.03125 +0.25000 -0.12500 -0.32150 -0.12500

+0.09375 +0.56250 -0.28125 +0.34375 -0.62550 +0.00000 -0.00625

-0.31250 +0.65625 +0.34375 -0.06250 +0.43750 +0.62500 +0.56250

(X) =

-0.50000 -0.09375 +0.00000 -0.12500 +0.34375 -0.31250 +0.34375

-0.09375 -0.78125 +0.25000 +0.06250 +0.56250 +0.37500 +0.43750

Bước 3:

Bước 4: Sắp xếp được: p2, p5, p7, p6, p3, p4, p1.

Bước cuối cùng của thuật toán ta chọn p7 và p3 tư vấn cho u5.

L c cộng tác trong tr ng h p d liệu th a th ng d a vào ph ng

pháp gi m s chi u ma trận đ nh gi H n ch l n nh t c a ph ng ph p này

là có th m t thông tin trong khi gi m s chi u ma trận. H n ch này c ng c

th khắc phục d a trên việc xem xét và mở rộng độ ài đ ng đi tr n mô h nh

đ th trên.

2.3. Lọc cộng tác dựa vào lọc đồng huấn luyện

H c n a gi m s t đ thu h t nhi u s chú ý từ các nhà nghiên c u bởi

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

một s l ng l n các ví dụ không có nhãn có th làm tăng hiệu su t cho thuật

44

toán h c khi ch có một s ví dụ nh h n là có nhãn. Blum và Mitchell là

nh ng ng i đ u tiên xem xét việc thi t đ nh bài toán mà tập đ c tr ng c a

m i ví dụ có th đ c chia thành 2 khung nhìn khác biệt. Xem xét bài toán

l c cộng t c theo cách ti p cận đ ng hu n luyện, thì 2 khung nh n đ c xác

đ nh ở đ y là khung nh n theo ng i dùng và khung nhìn theo s n phẩm. Tập

c c nh n đ c x c đ nh có th là nh ng giá tr rõ ràng (các giá tr nằm trong

đo n [1,5]). Và c p ng i dùng - s n phẩm mà ng i ng ch a đ nh gi s n

phẩm là nh ng m u hu n luyện c n đ c x c đ nh nhãn.

2.3.1. Mô tả thuật toán đồng huấn luyện

Thuật to n đ ng hu n luyện áp dụng khi tập d liệu có s phân chia

đ c tr ng t nhiên. Quá trình đ ng hu n luyện đ c mô t hình th c nh sau:

Qu tr nh đ ng hu n luyện đ c th c hiện nh sau. Cho không gian m u X =

X1 x X2 trong đ : X1, X2 t ng ng là 2 khung nhìn khác nhau c a một m u.

M i m u x đ cho là một c p (x1, x2). Gi s rằng m i khung nhìn là đ y đ

đ phân lo i đ ng ho là một phân ph i trên X, và cho C1, C2 l n l t là

các l p khái niệm đ c đ nh ngh a t ng ng trên X1, X2.

Gi s rằng t t c các nhãn c a các m u có xác su t kh c 0 i D là

phù h p v i hàm mục đ ch f1 1 và c ng ph h p v i hàm mục đ ch f2 C2.

Hay nói cách khác, n u f bi u th cho khái niệm mục đ ch k t h p trên toàn bộ

m u, thì v i b t kỳ m u x = (x1, x2) đ c quan sát v i nh n ℓ chúng ta có

f(x) = f(x1) = f(x2) = ℓ. Trong th c t , thì đi u này c ngh a là D gán xác su t

bằng 0 cho b t kỳ m u nào mà f(x1) f(x2).

2.3.2. Thuật toán lọc cộng tác bằng phương pháp đồng huấn luyện theo

người dùng

ij) đ c l y bằng chính ma trận đ nh gi an đ u R=(rij).

Ph ng ph p l c cộng tác bằng đ ng hu n luyện theo ng i ng đ c th c hiện thông qua các vòng l p t. T i c khởi t o t=0, ma trận d đo n R(0) = (r(0)

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

c c cụ th c a ph ng ph p đ c ti n hành.

45

ij) = (rij)

ij)

Đầu vào: • Khởi tạo ma trận đ nh gi R(0) = (r(0)

Đầu ra: • Ma trận dự đo n R(t) = (r(t) Thuật toán

Bƣớc 1: Khởi t o s c l p an đ u: t 0;

Bƣớc 2: L p

2.1. Hu n luyện theo ng i dùng:

a) Tìm tập c c ng i dùng c ng đ nh gi cho s n phẩm S

(2.15) Si =

: Hằng s ng i ng c ng đ nh gi s n phẩm

S dụng công th c độ t ng t t ng quan đ tính tập t t c c c ng i dùng

if

c ng đ nh gi s n phẩm i và j ( u )

, otherwise

j j (2.16) uij =

b) Tìm Ki là ng i ng đ nh gi s n phẩm cao nh t

(2.17) Ki =

c) D đo n ng i dùng x v i s n phẩm i

(2.18) rix =

: là đ nh gi trung nh cộng cho s n phẩm i.

2.2. Hu n luyện theo s n phẩm:

a) Tìm tập các s n phẩm đ c ng i dùng đ nh gi C .

(2.19) Cx=

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

S dụng công th c osin đi u ch nh đ t nh độ t ng t gi a hai s n phẩm

if

46

y j , otherwise (2.20) Pxy =

b) Tìm Ki là s n phẩm mà ng i ng đ nh gi cao nh t

(2.21) Ki=

c) D đo n ng i dùng x v i s n phẩm i

(2.22) rix=

: là đ nh gi trung nh cộng cho s n phẩm i.

2 3 Tăng c l p: t t+1;

Until Converges: không có nhãn phân lo i nào đ c bổ sung vào ma trận d đo n

2.3.3 Lọc cộng tác bằng phương pháp đồng huấn luyện theo sản phẩm

G n gi ng v i l c cộng tác bằng ph ng ph p đ ng hu n luyện theo

ng i ng ph ng ph p này ch có một đi m khác trong quá trình hu n

luyện đ là th t th c hiện hu n luyện, quá trình hu n luyện theo s n phẩm

s đ c th c hiện tr c quá trình hu n luyện theo ng i dùng.

Thuật toán l c cộng tác bằng ph ng ph p đ ng hu n luyện theo s n phẩm.

ij) = (rij)

Đầu vào: • Khởi tạo ma trận đ nh gi R(0) = (r(0)

ij)

Đầu ra: • Ma trận dự đo n R(t) = (r(t)

Thuật toán

Bƣớc 1: Khởi t o s c l p an đ u: t 0;

Bƣớc 2: L p.

2.1. Hu n luyện theo s n phẩm:

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

a) Tìm tập các s n phẩm đ c ng i ng đ nh gi .

47

(2.19) Cx=

: Hằng s s n phẩm đ c ng i ng đ nh gi

S dụng công th c cosin đi u ch nh đ tính tập các s n phẩm đ c ng i

if

ng đánh giá

, otherwise (2.20)

y j Pxy =

b) Tìm Ki là s n phẩm đ c ng i ng đ nh gi cao nh t.

(2.21) Ki=

c) D đo n s n phẩm i v i ng i dùng x

(2.22) rix=

2.2. Hu n luyện theo ng i dùng:

a) Tìm tập c c ng i dùng c ng đ nh gi cho s n phẩm S

(2.15) Si =

: Hằng s ng i ng c ng đ nh gi s n phẩm

S dụng công th c độ t ng t t ng quan đ tính tập t t c c c ng i dùng

if

c ng đ nh gi s n phẩm i và j ( u )

, otherwise

j j (2.16) uij =

b) Tìm Ki là ng i ng đ nh gi s n phẩm l n nh t

(2.17) Ki =

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

c) D đo n ng i dùng x v i s n phẩm i

48

(2.18) rix=

: là đ nh gi trung nh cộng cho s n phẩm i.

2 3 Tăng c l p: t t+1;

Until Converges: không có nhãn phân lo i nào đ c bổ sung vào ma trận d đo n.

Ví dụ 2.6:

Xét bài toán l c cộng tác v i ma trận đ nh gi R = (rij) trong hệ g m 5

ng i dùng U = {u1, u2, u3, u4, u5} và 7 s n phẩm P = {p1, p2, p3, p4, p5,

p6, p7}. M i ng i ng đ u đ a ra c c đ nh gi c a mình v các s n phẩm

theo thang bậc {Ø, 1, 2, 3, 4, 5}. Giá tr rij = Ø đ c hi u là ng i dùng ui

ch a đ nh gi ho c ch a ao gi bi t đ n s n phẩm pj. Các giá tr r5,1 = ? là

s n phẩm hệ th ng c n d đo n cho ng i dùng u5.

Bảng 2.13: Ng i dùng và s n phẩm

Ø

Ø

p6 Ø p4 Ø p1 4 p3 5 p5 3 p7 3

Ø

p2 2 Ø 5 5 4

Ø

Ø

Ø

5 Ø 4 4 3 4 3

Ø

3 5 5 5

? 5 ? ? 4 4 u1 u2 u3 u4 u5

Lọc cộng tác bằng phƣơng pháp đồng huấn luyện theo ngƣời dùng:

Ch n = 3 v i ng i dùng u1 c a b ng (2.13), theo công th c (2.15)

thì: S1 = {u2, u3}, S2 = {u1}, S3 = {u1, u2}, S4 = { }, S5 = { }. Khi đ m c

độ t ng t gi a hai ng i dùng đ c xác đ nh theo công th c (2.16).

Các nhãn phân lo i chắc chắn ch đ c d đoán từ nh ng ng i dùng j

Si theo công th c (2.18).

V i tập ng i dùng đ cho trong b ng (2.13), tìm Kj theo (2.17) ta

đ c K1 = {u3}, K2 = {u1}, K3 = {u1}.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Bảng 2.14: B ng giá tr đ nh gi theo ng i dùng.

49

p1 4 p2 2 p3 5 p5 3 p7 3 p4 4

p6 4 Ø 5 5 5 4 2 3

Ø

Ø

Ø

4 4 3 4 3 2 5

Ø

3 5 5 5

? 5 ? ? 4 4 u1 u2 u3 u4 u5

Lọc cộng tác bằng phƣơng pháp đồng huấn luyện theo sản phẩm:

Ch n = 3 v i s n phẩm p1 c a b ng (2.13), theo công th c (2.19) thì:

C1= {p5},C2= {Ø},C3= {Ø},C4= {Ø},C5= {Ø}.

Tuy vậy việc quan sát theo s n phẩm đ c th c hiện sau quá trình quan sát

theo ng i dùng ta s xác đ nh đ c:

C1= {p2, p3, p4, p5, p7}, C2= {p1, p3, p4, p5, p7}, C3= {p1, p2, p4, p5, p7},

C4= {p1, p2, p3, p5, p6, p7}, C5= {p1, p2, p3, p4, p7}, C6= {p2, p3, p4, p7}, C7= {p1, p2, p3, p4, p5, p6}.

M c độ t ng t gi a hai s n phẩm đ c xác đ nh theo công th c (2.20)

Các nhãn phân lo i chắc chắn ch đ c d đoán từ các s n phẩm y Cx theo

công th c (2.21) và (2.22)

D a theo k t qu quan sát theo ng i dùng ta tìm đ c:

K1={p4}, K2={p7}, K3={p4}, K4={p1}, K5={p7}, K6={p4}, K7={p5}.

Bảng 2.15: B ng giá tr đ nh gi theo s n phẩm

p1 p2 p3 p4 p5 p6 p7

4 2 5 3 3 4 4 u1

5 5 5 4 2 3 5 u2

Ø

Ø

4 4 3 4 3 2 5 u3

3 5 5 5 5 u4

? 5 ? ? 4 4 4 u5

Nh vậy, quá trình l c cộng tác bằng đ ng hu n luyện v i 1 c l p

đ ổ sung đ c các giá tr đ nh gi c n thi u vào tập d liệu hu n luyện.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

2.5. Kết luận

50

h ng này t c gi đ tr nh ày ph ng ph p l c cộng tác d a trên s n

phẩm v i các thuật to n t nh độ t ng t và d đo n ph ng ph p l c cộng

tác d a tr n mô h nh đ th v i thuật toán d a tr n mô h nh ng i dùng - s n

phẩm đ xu t ph ng ph p đo n tr n t t c c c đ nh gi và thuật toán

đ ng hu n luyện d a trên ng i dùng và s n phẩm. V i m i thuật to n đ u có

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

ví dụ minh h a quá trình x l đ đ a ra c c k t qu t v n.

51

Chƣơng 3

XÂY DỰNG HỆ THÔNG TIN TƢ VẤN SẢN PHẨM SỮA

DÀNH CHO NGƢỜI TIÊU DÙNG

3.1. Phát biểu bài toán

Hiện nay trên th tr ng có r t nhi u các lo i s a, ng i tiêu dùng g p

nhi u khó khăn cho việc l a ch n s n phẩm s a phù h p cho b n thân và gia

đ nh, m i ng i dùng l i có một nhu c u và sở thích khác nhau. V n đ đ t ra

là c n l a ch n nh ng s n phẩm s a phù h p cho từng đ i t ng ng i tiêu

dùng đ ng th i c n s đ nh gi c a khách hàng v s n phẩm.

D a tr n c sở nghiên c u v ph ng ph p l c cộng tác và ng dụng trong

l c thông tin t v n tác gi mu n xây d ng ph n m m th nghiệm hệ thông

tin t v n s n phẩm s a ành cho ng i tiêu dùng.

3.2. Phân tích thiết kế hệ thống tƣ vấn sản phẩm sữa

3.2.1 Xác định bài toán

- D liệu đ u vào: B ng đ nh gi c c s n phẩm c a ng i dùng

- D liệu đ u ra: T v n các s n phẩm mà ng i ng ch a đ nh gi

3.2.2. Phân tích các yêu cầu

Ng i dùng là các khách hàng đăng nhập vào 1 hệ th ng We stie đ mua

s a. M i ng i ng đ c l u tr trên hệ th ng v i các h s ao g m thông

tin c nh n và c c đ nh gi c a ng i ng đ v i các lo i s a Đánh giá

theo thang đi m từ 0 đ n 5, v i ngh a là đ nh gi càng cao th ng i dùng

càng thích lo i s a đ đi m 0 dành cho lo i s a mà ng i ng ch a đ nh

giá ho c ch a i t v lo i s a đ Hệ th ng c n ph i d đo n cho kh ch hàng

các s n phẩm s a mà kh ch hàng ch a đ nh gi . Tuy nhiên có r t nhi u lo i

s a đ đ c đ nh giá ch bởi một vài ng i và nh ng s a này kh năng đ c

t v n là r t ít, thậm chí ngay c khi trong s đ c nh ng ng i ng đ a ra

đ nh gi r t cao v ch ng ng nh vậy đ i v i nh ng ng i dùng mà th

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

hi u c a h kh c th ng so v i một s đông ng i khác thì s không có

52

ng i dùng nào đ c t v n v nh ng th hi u gi ng h , d n đ n việc t v n

nghèo nàn. Một ph ng ph p v t qua t nh th a th t trong đ nh gi là s

dụng thông tin cá nhân c a ng i dùng khi tính toán s t ng đ ng gi a

nh ng ng i dùng. Hai ng i ng đ c xem là gi ng nhau không khi đ c

đ nh gi c sở thích v các lo i s a là gi ng nhau mà chúng còn ph i thuộc

cùng một đ i t ng.

Một v n đ tr c khi xây d ng ma trận đ nh gi v i nh ng s n phẩm ít

đ c đ nh gi ho c nh ng ng i dùng t đ nh gi s n phẩm, nh ng ng i

dùng và s n phẩm này s không h u ch trong qu tr nh t v n. V n đ c n

ch n l c ra nh ng s n phẩm và ng i ng đ tham gia trong qu tr nh t

v n. Rõ ràng nh ng s n phẩm m i ho c ng i dùng m i không th tham gia

trong quá trình d đo n ho c nh ng s n phẩm hay ng i ng c đ nh gi t

h n 1 ng ng nào đ c ng đ c lo i ra t v n cho h trong nh ng s n phẩm

mà h ch a đ nh gi th s n phẩm nào là phù h p nh t d a trên nh ng ng i

có sở thích gi ng h .

Công việc của hệ thông tin tƣ vấn:

Ng i dùng m i s đăng k thông tin c nh n c a m nh đ t o nên một

bộ h s ng i ng đ c l u tr trong c sở d liệu

Khi một ng i dùng đăng nhập vào hệ th ng, hệ th ng có nhiệm vụ t

v n nh ng lo i s a mà ng i dùng đ ch a từng bi t đ n và nh ng lo i s a t

v n đ đ c d đo n là ng i dùng s đ nh gi cao

Các b c đ c th c hiện nh sau:

B c 1: Hệ th ng s xem xét các lo i s a mà ng i dùng ch a đ nh

giá so s nh độ t ng t gi a lo i s a đ v i nh ng s a khác, độ t ng t 2

lo i s a đ c tính d a trên nh ng ng i dùng từng đ nh gi tr n c 2 lo i s a

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

đ theo một thuật toán tính xác su t.

53

B c 2: Hệ th ng t v n s d đo n đ nh gi c a ng i dùng v i

nh ng s a mà ng i ng ch a s dụng, l a ch n nh ng s a đ c d đo n

có đ nh gi cao đ đ a vào anh s ch t v n cho ng i dùng

3.2.3. Thiết kế hệ thống tư vấn sản phẩm sữa

Thiết kế cơ sở dữ liệu

S dụng ph n m m Acsess t o c sở d liệu “L c cộng tác” v i b ng

“Ng i dùng” đ l u tr thông tin c a khách hàng.

Hình 3.1: B ng Ng i dùng ở ch độ thi t k

Hình 3.2: B ng Ng i dùng ở ch độ trang d liệu

Thiết kế chức năng.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Các ch c năng chính c a ch ng trình:

54

Đ ng ký: Ng i dùng m i đăng kí thông tin khách hàng và đ nh giá một s

lo i s a mà h đ s dụng đ t o nên bộ h s ng i dùng

Đ ng nhập: Ng i dùng đăng nhập vào hệ th ng v i tên truy nhập và mật

khẩu c a riêng mình, n u mu n ng i dùng có th thay đổi các đ nh giá s n

phẩm tr c đ .

- Hệ th ng cho phép khách hàng l a ch n l c trên bộ nh ho c đ th .

- Ng i dùng yêu c u t v n s n phẩm s a ch a đ nh giá hệ th ng s tính

toán đ a ra k t qu .

- B c cu i cùng hệ th ng s t v n cho khách hàng s n phẩm mà khách

hàng s đ nh gi cao

3.3. Xây dựng chƣơng trình ứng dụng

h ng tr nh đ c ch y trên bộ visual studio 2012, ngôn ng lập C#

th c hiện cài đ t thuật toán l c cộng tác d a trên s n phẩm và l c cộng tác

d a trên mô hình đ th đ t v n s n phẩm s a cho ng i tiêu dùng.

Các thuật toán sử dụng để cài đặt

- Thuật to n t nh độ t ng t cosine đi u ch nh, kho ng giá tr luôn

nằm trong đo n [-1,1] th hiện m c độ t ng t theo m c tăng n giá tr độ

t ng t , giá tr độ t ng t càng l n th hiện s t ng đ ng v m t đ nh gi

c a 2 s n phẩm. Tác gi s dụng thuật toán này bởi công th c cosin đi u

ch nh có thêm thêm trung bình cộng c c đ nh gi kh c r ng c a ng i dùng.

- Thuật d đo n a trên tổng tr ng s v i việc đ nh gi c a ng i

dùng lên s n phẩm d a vào nh ng đ nh gi c a ng i ng đ l n c c s n

phẩm t ng t .

- Thuật toán d a tr n mô h nh đ th v i ph ng pháp d đo n theo t t

c đ nh gi (đ th có tr ng s ng và đ th có tr ng s âm).

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Demo chƣơng trình

55

Hình 3.3: Giao diện ch ng tr nh đo n s n phẩm s a cho ng i tiêu dùng.

Hình 3.4: Ng i ng đăng nhập vào hệ th ng.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Hình 3.5: Hệ th ng l c cộng tác d a vào bộ nh

56

Hình 3.6: Hệ th ng l c cộng tác d a vào đ th

3.4. Kết luận

h ng 3 tác gi xây d ng ng dụng s n phẩm s a cho ng i tiêu

dùng s dụng l c cộng tác d a vào bộ nh và l c cộng tác d a vào đ th . Do

s n phẩm s a ch a c ộ d liệu chuẩn nên tác gi h ng theo cách ti p cận

m i là làm th c nghiệm bằng cách phát phi u thăm ki n cho 9 ng i

dùng v i 9 s n phẩm s a nên tác gi ch a th ti n hành đ nh gi s n phẩm

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

s a theo Precision, Recall và F-Measure đ c.

57

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN

Kết luận

Luận văn ti n hành nghiên c u một s ph ng pháp l c cộng tác và đ

đ t đ c nh ng yêu c u sau:

- Nghiên c u l c cộng tác d a trên s n phẩm v i thuật toán tính độ

t ng t và tính toán d đoán t v n.

- Nghiên c u l c cộng tác d a trên mô hình đ th v i thuật toán d a

trên mô hình đ th ng i dùng - s n phẩm.

- Nghiên c u l c cộng tác bằng ph ng pháp đ ng hu n luyện theo

ng i dùng và theo s n phẩm.

- Xây d ng ng dụng hệ thông tin t v n s n phẩm s a dành cho ng i

tiêu dùng. Ứng dụng cho phép ng i dùng đăng nhập đ đ nh giá đ ng th i

nhận đ c g i ý nh ng s n phẩm h p v i sở thích c a m i ng i dùng.

Hƣớng phát triển

Luận văn m i ch nghiên c u đ c một ph ng pháp l c thông tin cho

hệ t v n đ là ph ng pháp l c cộng tác, ph ng pháp này còn nhi u h n

ch v v n đ d liệu th a, ng i dùng và s n phẩm m i. Bởi vậy, trong

t ng lai ph ng h ng phát tri n ti p theo c a tác gi s nghiên c u thêm

các ph ng pháp l c thông tin cho hệ t v n khác đ khắc phục các h n ch

trên đ ng th i xây d ng ch ng trình ng dụng thông tin t v n đ c t t h n

v i nh ng đ nh gi cụ th .

Do th i gian và kinh nghiệm nghiên c u còn thi u, ki n th c còn h n

ch , m c dù đ n l c c gắng, tuy nhiên luận văn không tránh kh i nh ng

thi u sót. R t mong nhận đ c nh ng ch b o c a các th y cô, s đ ng góp

c a các b n đ ng nghiệp đ tác gi có th hoàn thành công trình nghiên c u

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

này t t h n.

58

TÀI LIỆU THAM KHẢO

Tiếng Việt

[1]. Nguyễn uy Ph ng Từ Minh Ph ng (2009) ”L c cộng tác và l c theo

nội dung d a trên mô h nh đ th ” Chuyên san các công trình nghiên cứu,

phát triển và ứng dụng Công nghệ thông tin và Truyền thông, Tập V-1 s 1,

trang: 4-12.

[2]. Nguyễn uy Ph ng Từ Minh Ph ng (2008) “Một thuật toán l c cộng tác

cho tr ng h p ít d liệu” Tạp chí Tin học và Điều khiển học, tập 24, trang:

62-74.

[3]. Nguyễn uy Ph ng Ph m Văn ng, Từ Minh Ph ng (2008) “Một s

gi i pháp l c th rác ti ng Việt” Chuyên san các công trình nghiên cứu,

phát triển và ứng dụng Công nghệ thông tin và Truyền thông, s 19, trang:

102-112.

[4]. Nguyễn uy Ph ng L Quang Thắng, Từ Minh Ph ng (2008) “K t h p

l c cộng tác và l c theo nội dung s dụng đ th ” Một số vấn đề chọn lọc

của Công nghệ thông tin và truyền thông, trang: 155-166.

Tiếng Anh

[5]. G Somlo an A Howe (2001) “A aptive Lightweight Text Filtering” Proc.

Fourth Int’l S mp. Intelligent Data Anal sis.

[6]. J. S. Breese, D. Heckerman, and C. Ka ie (1998) “Empirical analysis of

[7]. Predictive Algorithms for Collaborative Filtering” In Proc. of 14th Conf. on

Uncertainty in Artificial Intelligence, pp. 43-52.

[8]. J L Herlocker J A Konstan an J Rie l (2000) “Explaining olla orative

Filtering Recommen ations” Proc. ACM Conf Computer Supported

Cooperative Work.

[9]. L Si an R Jin (2003) “Flexi le Mixture Mo el for Collaborative

Filtering” Proc. th Int’l Conf. Machine Learning.

[10]. M Pazzani an illsus (1997) “Learning an Revising User Profiles: The

Identification of Interesting Web Sites” Machine Learning, vol. 27, pp. 313-331.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

59