TRƯỜNG ………………….
KHOA……………………….
----------
Báo cáo tốt nghiệp
Đề tài:
Phát trin một số phương pháp lọc
thông tin cho hệ tư vấn
1
LI CAM OAN
Tôi xin cam oan ây là ng trình nghiên cu ca riêng tôi. Các kt qu
ưc vit chung vi các tác gi khác u ưc s ng ý ca ng tác gi trưc
khi ưa vào lun án. Các kt qu nêu trong lun án trung thc chưa tng
ưc công b trong các công trình nào khác.
c gi
Nguyn Duy Phng
2
Li cm ơn
Thc hin lun án tin s mt th thách ln, òi hi s kiên trì tp
trung cao . Tôi thc s hnh phúc vi kt qu t ưc trong tài nghiên
cu ca nh. Nhng kt qu t ưc không ch n lc nhân, còn
s h tr giúp  ca tp th giáo viên hưng dn, nhà trưng, b n, ng
nghip và gia ình. Tôi mun bày t tình cm ca mình n vi h.
Trưc tiên, tôi xin bày t s bit ơn sâu sc n tp th giáo viên hưng
dn PGS TS T Minh Phương PGS TS inh Mnh Tưng. ưc làm vic
vi hai th y mt cơ hi ln cho tôi hc hi phương pháp nghiên cu. Cm ơn
hai th y r!t nhiu vì s hưng dn tn tình, nghiêm túc và khoa hc.
Tôi xin trân trng cm ơn B môn Khoa hc máy nh, Khoa Công ngh
thông tin, Phòng ào to, Ban giám hiu trưng i hc Công ngh ã to iu
kin thun li choi trong sut quá trình thc hin lun án.
Tôi xin cm ơn tp th Lãnh o Hc Vin Công ngh Bưu chính Vi"n
thông, cán b, ging viên khoa ng ngh thông tin Hc Vin Công ngh
Bưu chính Vi"n thông ã c# v$ ng viên tôi trong quá trình nghiên cu.
Tôi cm ơn t!t c nhng ngưi bn ca i, nhng ngưi luôn chia s% và c#
v$ tôi trong nhng lúc khó kh&n và tôi luôn ghi nh iu ó.
Cui cùng, tôi xin y t lòng bit ơn vô hn i vi cha m' và gia ình ã
luôn bên cnh ng h, giúp tôi.
3
MC LC
PH(N M) (U .........................................................................................................
1. Tính c!p thit ca lun án........................................................................... 11
2. M*c tiêu ca lun án................................................................................... 12
3. Các óng góp ca lun án........................................................................... 13
4. B c*c ca lun án ...................................................................................... 15
CHNG 1. T-NG QUAN V. L/C THÔNG TIN CHO H0 T+ V1N .........16
1.1. GI2I THI0U CHUNG................................................................................ 16
1.1.1. Kin trúc t#ng quát ca h thng lc thông tin .................................. 17
1.1.2. Lc thông tin và truy v!n thông tin..................................................... 18
1.1.3. Hc máy và lc thông tin..................................................................... 19
1.1.4. Lc tng tin và các h tư v!n............................................................ 21
1.2. PHNG PHÁP L/C THEO N3I DUNG.............................................. 24
1.2.1. Bài toán lc theo ni dung .................................................................. 25
1.2.2. Các phương pp pháp lc theo ni dung............................................ 25
1.2.2.1. Lc ni dung da vào b nh........................................................ 25
1.2.2.2. Lc ni dung da vào mô hình...................................................... 28
1.2.3. Nhng v!n  tn ti............................................................................. 29
1.3. PH+ƠNG PHÁP L/C C3NG TÁC.......................................................... 30
1.3.1. Bài toán lc cng tác............................................................................. 30
1.3.2. Các phương pháp lc cng tác............................................................. 32
1.3.2.1. Lc cng tác da tn b nh....................................................... 32
1.3.2.2. Lc cng tác da vào mô hình ..................................................... 35
1.3.3. Nhng v!n  tn ti............................................................................. 38
1.4. PH+ƠNG PHÁP L/C K4T H5P.............................................................. 39
1.4.1. Bài toán lc kt hp .............................................................................. 39
1.4.2. Các phương pp lc kt hp............................................................... 40
1.4.3. Nhng v!n n tn ti.................................................................... 42
1.5. K4T LU6N ................................................................................................. 42
4
CHNG 2. L/C C3NG TÁC B7NG PHNG PHÁP H/C A NHI0M......
2.1. 8T V1N .............................................................................................. 44
2.1.1. V!n  d liu thưa ca lc cng tác .................................................. 44
2.1.2. 9nh hư:ng ca v!n  d liu thưa .................................................... 45
2.1.3. Các phương pháp hn ch v!n  d liu thưa................................... 46
2.2. L/C C3NG TÁC B7NG PHÂN LO;I ................................................... 48
2.2.1. Phát biu bài toán lc cng tác b<ng phân loi .................................. 48
2.2.2. Phân loi b<ng phương pháp Boosting ............................................... 51
2.3. PHÂN LO;I V2I CÁC 8C TR+NG CHUNG .................................... 56
2.3.1. Phương pháp hc a nhim ................................................................. 56
2.3.2. Boosting ng thi cho nhiu bài toán phân loi............................... 59
2.3.2.1. Xây dng hàm m*c tiêu................................................................ 59
2.3.2.2. Xây dng b phân loi yu........................................................... 60
2.2.2.3.  phc tp thut toán.................................................................. 63
2.4. TH= NGHI0M VÀ K4T QU9................................................................. 65
2.4.1. Phương pháp th nghim..................................................................... 65
2.4.2. D liu th nghim .............................................................................. 65
2.4.3. So sánh và ánh giá da vào giá tr> MAE .......................................... 67
2.4.4. Kt qu th nghim.............................................................................. 67
2.4.5. Phân tích kt qu.................................................................................. 69
2.5. K4T LU6N ................................................................................................. 72
CHNG 3. L/C K4T H5P D?A TN MÔ HÌNH @ THA............................
3.1. V1N . L/C K4T H5P........................................................................... 73
3.2. L/C C3NG TÁC D?A TN MÔ HÌNH @ THA............................... 75
3.2.1. Phương pháp biu di"n  th>.............................................................. 75
3.2.2. Phương pháp d oán trên th> Ngưi dùng- Sn phBm ................ 76
3.2.2.1. CDch EFG> Ngưi HIng-EJn phBm FGKnh LDc EFG>Econ .............. 78
3.2.2.2. Phương MGDp dENDn trên EFG>EG+................................................ 80
3.2.2.3. Phương MGDp dENDn trên EFG>EG-................................................ 83