
TRƯỜNG ………………….
KHOA……………………….
----------
Báo cáo tốt nghiệp
Đề tài:
Phát triển một số phương pháp lọc
thông tin cho hệ tư vấn

1
LI CAM OAN
Tôi xin cam oan ây là công trình nghiên cu ca riêng tôi. Các kt qu
ưc vit chung vi các tác gi khác u ưc s ng ý ca ng tác gi trưc
khi ưa vào lun án. Các kt qu nêu trong lun án là trung thc và chưa tng
ưc công b trong các công trình nào khác.
Tác gi
Nguyn Duy Phng

2
Li cm ơn
Thc hin lun án tin s là mt th thách ln, òi hi s kiên trì và tp
trung cao . Tôi thc s hnh phúc vi kt qu t ưc trong tài nghiên
cu ca mình. Nhng kt qu t ưc không ch là n lc cá nhân, mà còn có
s h tr và giúp ca tp th giáo viên hưng dn, nhà trưng, b môn, ng
nghip và gia ình. Tôi mun bày t tình cm ca mình n vi h.
Trưc tiên, tôi xin bày t s bit ơn sâu sc n tp th giáo viên hưng
dn PGS TS T Minh Phương và PGS TS inh Mnh Tưng. ưc làm vic
vi hai th y là mt cơ hi ln cho tôi hc hi phương pháp nghiên cu. Cm ơn
hai th y r!t nhiu vì s hưng dn tn tình, nghiêm túc và khoa hc.
Tôi xin trân trng cm ơn B môn Khoa hc máy tính, Khoa Công ngh
thông tin, Phòng ào to, Ban giám hiu trưng i hc Công ngh ã to iu
kin thun li cho tôi trong sut quá trình thc hin lun án.
Tôi xin cm ơn tp th Lãnh o Hc Vin Công ngh Bưu chính Vi"n
thông, cán b, ging viên khoa Công ngh thông tin – Hc Vin Công ngh
Bưu chính Vi"n thông ã c# v$ ng viên tôi trong quá trình nghiên cu.
Tôi cm ơn t!t c nhng ngưi bn ca tôi, nhng ngưi luôn chia s% và c#
v$ tôi trong nhng lúc khó kh&n và tôi luôn ghi nh iu ó.
Cui cùng, tôi xin bày t lòng bit ơn vô hn i vi cha m' và gia ình ã
luôn bên cnh ng h, giúp tôi.

3
MC LC
PH(N M) (U .........................................................................................................
1. Tính c!p thit ca lun án........................................................................... 11
2. M*c tiêu ca lun án................................................................................... 12
3. Các óng góp ca lun án........................................................................... 13
4. B c*c ca lun án ...................................................................................... 15
CH+ƠNG 1. T-NG QUAN V. L/C THÔNG TIN CHO H0 T+ V1N .........16
1.1. GI2I THI0U CHUNG................................................................................ 16
1.1.1. Kin trúc t#ng quát ca h thng lc thông tin .................................. 17
1.1.2. Lc thông tin và truy v!n thông tin..................................................... 18
1.1.3. Hc máy và lc thông tin..................................................................... 19
1.1.4. Lc thông tin và các h tư v!n............................................................ 21
1.2. PH+ƠNG PHÁP L/C THEO N3I DUNG.............................................. 24
1.2.1. Bài toán lc theo ni dung .................................................................. 25
1.2.2. Các phương pháp pháp lc theo ni dung............................................ 25
1.2.2.1. Lc ni dung da vào b nh........................................................ 25
1.2.2.2. Lc ni dung da vào mô hình...................................................... 28
1.2.3. Nhng v!n tn ti............................................................................. 29
1.3. PH+ƠNG PHÁP L/C C3NG TÁC.......................................................... 30
1.3.1. Bài toán lc cng tác............................................................................. 30
1.3.2. Các phương pháp lc cng tác............................................................. 32
1.3.2.1. Lc cng tác da trên b nh....................................................... 32
1.3.2.2. Lc cng tác da vào mô hình ..................................................... 35
1.3.3. Nhng v!n tn ti............................................................................. 38
1.4. PH+ƠNG PHÁP L/C K4T H5P.............................................................. 39
1.4.1. Bài toán lc kt hp .............................................................................. 39
1.4.2. Các phương pháp lc kt hp............................................................... 40
1.4.3. Nhng v!n còn tn ti.................................................................... 42
1.5. K4T LU6N ................................................................................................. 42

4
CH+ƠNG 2. L/C C3NG TÁC B7NG PH+ƠNG PHÁP H/C A NHI0M......
2.1. 8T V1N .............................................................................................. 44
2.1.1. V!n d liu thưa ca lc cng tác .................................................. 44
2.1.2. 9nh hư:ng ca v!n d liu thưa .................................................... 45
2.1.3. Các phương pháp hn ch v!n d liu thưa................................... 46
2.2. L/C C3NG TÁC B7NG PHÂN LO;I ................................................... 48
2.2.1. Phát biu bài toán lc cng tác b<ng phân loi .................................. 48
2.2.2. Phân loi b<ng phương pháp Boosting ............................................... 51
2.3. PHÂN LO;I V2I CÁC 8C TR+NG CHUNG .................................... 56
2.3.1. Phương pháp hc a nhim ................................................................. 56
2.3.2. Boosting ng thi cho nhiu bài toán phân loi............................... 59
2.3.2.1. Xây dng hàm m*c tiêu................................................................ 59
2.3.2.2. Xây dng b phân loi yu........................................................... 60
2.2.2.3. phc tp thut toán.................................................................. 63
2.4. TH= NGHI0M VÀ K4T QU9................................................................. 65
2.4.1. Phương pháp th nghim..................................................................... 65
2.4.2. D liu th nghim .............................................................................. 65
2.4.3. So sánh và ánh giá da vào giá tr> MAE .......................................... 67
2.4.4. Kt qu th nghim.............................................................................. 67
2.4.5. Phân tích kt qu.................................................................................. 69
2.5. K4T LU6N ................................................................................................. 72
CH+ƠNG 3. L/C K4T H5P D?A TRÊN MÔ HÌNH @ THA............................
3.1. V1N . L/C K4T H5P........................................................................... 73
3.2. L/C C3NG TÁC D?A TRÊN MÔ HÌNH @ THA............................... 75
3.2.1. Phương pháp biu di"n th>.............................................................. 75
3.2.2. Phương pháp d oán trên th> Ngưi dùng- Sn phBm ................ 76
3.2.2.1. CDch EFG> Ngưi HIng-EJn phBm FGKnh LDc EFG>Econ .............. 78
3.2.2.2. Phương MGDp dENDn trên EFG>EG+................................................ 80
3.2.2.3. Phương MGDp dENDn trên EFG>EG-................................................ 83