Luận văn: Phát triển một số phương pháp lọc thông tin cho hệ tư vấn
lượt xem 56
download
Đề xuất ứng dụng kỹ thuật học đa nhiệm để cải thiện độ chính xác lọc cộng tác cho trường hợp dữ liệu thưa thớt. Phương pháp học đa nhiệm đề xuất dựa trên thuật toán boosting các gốc cây quyết định được cải tiến để thực hiện đồng thời trên nhiều bài toán phân loại, từ đây cho phép chia sẽ thông tin giữa các bộ phân loại với nhau để giảm ảnh hưởng của dữ liệu thưa thớt. Đề xuất được một mô hình mới kết hợp giữa lọc cộng tác và lọc nội dung dựa vào biểu...
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận văn: Phát triển một số phương pháp lọc thông tin cho hệ tư vấn
- TRƯỜNG …………………. KHOA………………………. ---------- Báo cáo tốt nghiệp Đề tài: Phát triển một số phương pháp lọc thông tin cho hệ tư vấn
- L I CAM OAN Tôi xin cam oan ây là công trình nghiên c u c a riêng tôi. Các k t qu ư c vi t chung v i các tác gi khác u ư cs ng ý c a n g tác gi trư c khi ưa vào lu n án. Các k t qu nêu trong lu n án là trung th c và chưa t ng ư c công b trong các công trình nào khác. Tác gi Nguy n Duy Phương 1
- L i c m ơn Th c hi n lu n án ti n sĩ là m t th thách l n, òi h i s kiên trì và t p trung cao . Tôi th c s h nh phúc v i k t qu t ư c trong tài nghiên c u c a mình. Nh ng k t qu t ư c không ch là n l c cá nhân, mà còn có s h tr và giúp c a t p th giáo viên hư ng d n , nhà trư ng, b môn, ng nghi p và gia ình. Tôi mu n bày t tình c m c a mình nv ih . Trư c tiên, tôi xin bày t s bi t ơn sâu s c n t p th giáo viên hư ng d n PGS TS T Minh Ph ương và PGS TS inh M nh Tư ng. ư c làm vi c v i hai th y là m t cơ h i l n cho tôi h c h i phương pháp nghiên c u . C m ơn hai th y r t nhi u vì s h ư ng d n t n tình, nghiêm túc và khoa h c. Tôi xin trân tr ng c m ơn B môn Khoa h c máy tính, Khoa Công ngh thông tin, Phòng ào t o, Ban giám hi u trư ng i h c Công ngh ãt o i u ki n thu n l i cho tôi trong su t quá trình th c hi n lu n án. Tôi xin c m ơn t p th Lãnh o H c Vi n Công ngh Bưu chính Vi n thông, cán b , gi ng viên khoa Công ngh thông tin – H c Vi n Công ngh Bưu chính Vi n thông ã c vũ n g viên tôi trong quá trình nghiên c u . Tôi c m ơn t t c n h ng ngư i b n c a tôi, nh ng ngư i luôn chia s và c vũ tôi trong nh ng lúc khó khăn và tôi luôn ghi nh i u ó. Cu i cùng, tôi xin bày t lòng bi t ơn vô h n i v i cha m và gia ình ã luôn bên c nh ng h , giúp tôi. 2
- M CL C PH N M U ......................................................................................................... 1. Tính c p thi t c a lu n án ........................................................................... 11 2. M c tiêu c a lu n án ................................................................................... 12 3. Các óng góp c a lu n án ........................................................................... 13 4. B c c c a lu n án ...................................................................................... 15 CHƯƠNG 1. T NG QUAN V L C THÔNG TIN CHO H TƯ V N .........16 1.1. GI I THI U CHUNG................................................................................ 16 1.1.1. Ki n trúc t ng quát c a h th ng l c thông tin .................................. 17 1.1.2. L c thông tin và truy v n thông tin..................................................... 18 1.1.3. H c máy và l c thông tin..................................................................... 19 1.1.4. L c thông tin và các h tư v n ............................................................ 21 1.2. PHƯƠNG PHÁP L C THEO N I DUNG.............................................. 24 1.2.1. Bài toán l c theo n i dung .................................................................. 25 1.2.2. Các phương pháp pháp l c theo n i dung............................................ 25 1.2.2.1. L c n i dung d a vào b nh ........................................................ 25 1.2.2.2. L c n i dung d a vào mô hình...................................................... 28 1.2.3. Nh ng v n t n t i ............................................................................. 29 1.3. PHƯƠNG PHÁP L C C NG TÁC .......................................................... 30 1.3.1. Bài toán l c c ng tác............................................................................. 30 1.3.2. Các phương pháp l c c ng tác............................................................. 32 1.3.2.1. L c c ng tác d a trên b nh ....................................................... 32 1.3.2.2. L c c ng tác d a vào mô hình ..................................................... 35 1.3.3. Nh ng v n t n t i ............................................................................. 38 1.4. PHƯƠNG PHÁP L C K T H P .............................................................. 39 1.4.1. Bài toán l c k t h p .............................................................................. 39 1.4.2. Các phương pháp l c k t h p ............................................................... 40 1.4.3. Nh ng v n còn t n t i .................................................................... 42 1.5. K T LU N ................................................................................................. 42 3
- CHƯƠNG 2. L C C NG TÁC B NG PHƯƠNG PHÁP H C A NHI M ...... 2.1. TV N ............................................................................................. 44 2.1.1. V n d li u thưa c a l c c ng tác .................................................. 44 2.1.2. nh h ư ng c a v n d li u thưa .................................................... 45 2.1.3. Các phương pháp h n ch v n d li u th ưa................................... 46 2.2. L C C NG TÁC B NG PHÂN LO I ................................................... 48 2.2.1. Phát bi u b ài toán l c c ng tác b ng phân lo i .................................. 48 2.2.2. Phân lo i b ng ph ương pháp Boosting ............................................... 51 2.3. PHÂN LO I V I CÁC C TRƯNG CHUNG .................................... 56 2.3.1. Phương pháp h c a nhi m ................................................................. 56 2.3.2. Boosting ng th i cho nhi u bài toán phân lo i ............................... 59 2.3.2.1. Xây d n g hàm m c tiêu................................................................ 59 2.3.2.2. Xây d n g b phân lo i y u ........................................................... 60 2.2.2.3. p h c t p thu t toán .................................................................. 63 2.4. TH NGHI M VÀ K T QU ................................................................. 65 2.4.1. Phương pháp th nghi m ..................................................................... 65 2.4.2. D li u th nghi m .............................................................................. 65 2.4.3. So sánh và ánh giá d a vào giá tr M AE .......................................... 67 2.4.4. K t qu th nghi m .............................................................................. 67 2.4.5. Phân tích k t qu .................................................................................. 69 2.5. K T LU N ................................................................................................. 72 CHƯƠNG 3. L C K T H P D A TRÊN MÔ HÌNH TH ............................ 3.1. V N L C K T H P........................................................................... 73 3.2. L C C NG TÁC D A TRÊN MÔ HÌNH TH ............................... 75 3.2.1. Phương pháp bi u di n th .............................................................. 75 3.2.2. Phương pháp d oán trên th Ngư i dùng- S n ph m ................ 76 3.2.2.1. Tách th Ng ư i dùng- S n ph m thành các th con .............. 78 th G+................................................ 80 3.2.2.2. Phương pháp d oán trên th G- ................................................ 83 3.2.2.3. Phương pháp d oán trên 4
- 3.2.2.4. Phương pháp d oán theo t t c ánh giá ...................................... 85 3.3. K T H P L C C NG TÁC VÀ L C N I DUNG ............................... 88 3.3.1. Bi u di n th k t h p ....................................................................... 88 3.3.2. Xây d ng liên k t n gư i dùng và n i dung s n ph m ....................... 91 3.3.3. Phương pháp d oán .......................................................................... 95 3.3.3.1. L c c ng tác d a trên mô hình th k t h p ............................. 95 3.3.3.2. L c n i dung d a trên mô hình th k t h p ............................ 95 3.3.3.3. Phương pháp l c k t h p ơn gi n............................................... 96 3.3.3.4. Phương pháp k t h p xu t ....................................................... 96 3.3.4. Thu t toán lan truy n m ng ............................................................... 102 3.4. TH NGHI M VÀ K T QU ............................................................... 103 3.4.1. D li u th nghi m ............................................................................ 104 3.4.2. Phương pháp th nghi m ................................................................... 105 3.4.3. So sánh và ánh giá d a vào Precision, Recall và F-measure......... 105 3.4.4. Phân tích k t qu ................................................................................ 107 3.4.5. Trư ng h p d li u thưa .................................................................... 110 3.5. K T LU N ............................................................................................... 111 K T LU N ....................................................................................................... 113 DANH M C CÁC CÔNG TRÌNH CÔNG B ............................................. 116 TÀI LI U T HAM KH O (TI NG VI T):.................................................... 117 TÀI LI U T HAM KH O (TI NG ANH): .................................................... 117 PH L C 1 XÂY D NG H T H NG TƯ V N L A CH N PHIM D A TRÊN MÔ HÌNH TH K T H P .................................................................127 5
- DANH M C CÁC CH VI T T T KÝ HI U D I N GI I AM Aspect Model (Mô hình nh hư ng) AU Active User (Ngư i dùng hi n th i) CBF Content-Based Filtering (L c d a trên n i dung) CF Collaborative Filtering (L c c n g tác) DAC Data Analyser Component (Thành ph n phân tích d li u) DBC Data-Based Concept (Nguyên lý d a vào d li u) DF Degree of Freedom (S b c t d o) EM Expectation Maximization (C c i kỳ v ng) FC Filtering Component (Thành ph n l c) FMM Flexible Mixture Model (Mô hình pha tr n linh ho t) IBL Instance-Based Learning (H c d a trên ví d ) IDF Inverse Document Frequency (T n su t xu t hi n ngư c) IE Information Extraction (Tách thông tin) IF Information Filtering (L c thông tin) IO Information Overload (Quá t i thông tin) IR Information Retrieval (Truy v n thông tin) KNN K Neareast Neighbor (K ngư i láng gi ng g n n h t) KNN Pearson Correlation (Phương pháp K ngư i láng gi ng g n KPC nh t d a trên tương quan Pearson) LC Learning Component (Thành ph n h c) LL Lazy Learning (H c lư i) LSE Least Square Estimation (Ư c lư ng bình phương t i thi u) LSM Latent Semantic Model (Mô hình ng ngh ĩa n) MAE Mean Absolute Error (Trung bình giá tr tuy t i l i) MBF Memory-Based Filtering (L c d a vào b nh ) MC Multiclass Classification (Phân lo i nhi u l p) MDBF Model-Based Filtering (L c d a vào mô hình) ML Machine Learning (H c máy) MM Multinomial Model (Mô hình a th c) 6
- MMM Multinomial Mixture Model (Mô hình pha tr n a th c) MTL Multi Task Learning (H c a nhi m) PCA Principal Components Analysis (Phân tích thành ph n chính) RS Recommender System (H th ng tư v n) SD Standard Deviation ( l ch chu n) SDP Sparsity Data Problem (V n d li u thưa) SE Standard Error (L i chu n) STL Single Task Learning (Phương pháp h c ơn l ) SVD Singular Value Decomposition (Phân rã giá tr riêng) SVM Support Vector Machine (Máy h tr véctơ) TF Term Frequency (T n su t) UMC User-Model Component (Thành ph n mô hình ngư i dùng) URP User Rating Profile (H sơ ánh giá ngư i dùng) 7
- DANH M C CÁC HÌNH Hình 1.1. Ki n trúc t ng quát c a h th ng l c thông tin. ...................................17 Hình 1.2. Các thành ph n c a h th ng l c c ng tác ...........................................31 Hình 2.1. Thu t toán GentleBoost. ........................................................................52 Hình 2.2. Ph ương pháp STL cho b n b ài toán phân lo i c l p nhau...............58 Hình 2.3. Ph ương pháp h c MTL cho b n bài toán phân lo i n g th i............58 Hình 2.4. Thu t toán MC-Boost c i ti n s d n g c trưng chung cho nhi u bài toán. ..........................................................................................................................62 Hình 2.5. Ph ương pháp duy t t p con các bài toán phân lo i ..............................64 Hình 3.1. th Ngư i dùng- S n ph m ..............................................................76 th G+ bi u di n các ánh giá thích h p ..........................................79 Hình 3.2. th G- bi u di n các ánh giá không thích h p. ..............................80 Hình 3.3. th G+ .........................................................81 Hình 3.4. Thu t toán d oán trên th G- .........................................................84 Hình 3.5. Thu t toán d oán trên Hình 3.6. Thu t toán d oán trên t t c ánh giá................................................86 Hình 3.7. th k t h p ngư i dùng và n i dung s n ph m ...............................90 Hình 3.8. th thi t l p liên k t gi a ngư i dùng và c trưng n i dung ........94 Hình 3.9. Thu t toán d o án trên th k t h p .................................................99 Hình 3.10. Thu t toán lan truy n m ng...............................................................103 Hình 3.11. Giá tr F-Measure các m c thưa th t d li u...........................111 8
- DANH M C CÁC B NG B ng 1.1. Phân lo i các phương pháp tư v n và m t s nghiên c u i n hình...23 B ng 1.2. Ví d v ma tr n ánh giá c a l c c ng tác..........................................31 B ng 2.1. Ma tr n ánh giá ngư i dùng.................................................................45 B ng 2.2. Ma tr n u vào c a l c c ng tác ..........................................................49 B ng 2.3. Ma tr n u vào bài toán phân lo i theo ngư i dùng...........................50 B ng 2.4. Ma tr n u vào bài toán phân lo i theo s n ph m ..............................50 B ng 2.5. K t q u th nghi m v i MovieLens .....................................................68 B ng 2.6. K t q u th nghi m v i EachMovie .....................................................68 B ng 2.7. Các tham s th ng kê v i K=5 ánh giá bi t trư c..............................70 c a t p d li u MovieLens......................................................................................70 B ng 2.8. Các tham s th ng kê v i K=10 ánh giá bi t trư c............................70 c a t p d li u MovieLens......................................................................................70 B ng 2.9. Các tham s th ng kê v i K=20 ánh giá bi t trư c............................71 c a t p d li u MovieLens......................................................................................71 B ng 2.10. Các tham s th ng kê v i K=5 ánh giá bi t trư c............................71 c a t p d li u EachMovie .....................................................................................71 B ng 2.11. Các tham s th ng kê v i K=10 ánh giá bi t trư c .........................71 c a t p d li u EachMovie .....................................................................................71 B ng 2.12. Các tham s th ng kê v i K=20 ánh giá bi t trư c .........................72 c a t p d li u EachMovie .....................................................................................72 B ng 3.1. Ma tr n ánh giá R.................................................................................74 B ng 3.2. Ma tr n S n ph m – N i dung Y...........................................................74 B ng 3.3. Ma tr n X bi u di n ánh th Ngư i dùng- S n p h m ...................76 + B ng 3.4. Ma tr n X bi u di n các ánh giá thích h p ........................................79 B ng 3.5. Ma tr n X- bi u di n các ánh giá không thích h p ............................80 B ng 3.6. Ma tr n ánh giá R.................................................................................89 B ng 3.7. Ma tr n Ngư i dùng- S n ph m X ........................................................89 9
- B ng 3.8. Ma tr n S n ph m- N i dung Y ............................................................90 B ng 3.9. Giá tr Precision, Recall, F-Measure ki m nghi m trên t p MovieLens1 ...........................................................................................................106 B ng 3.10. Giá tr Precision, Recall, F-Measure ki m n ghi m trên t p MovieLens2 ...........................................................................................................107 B ng 3.11. K t qu ki m nghi m p aired t-test v i K=10 s n ph m c n tư v n ...... trên t p MovileLens1 ............................................................................................108 B ng 3.12. K t qu ki m nghi m p aired t-test v i K=20 s n ph m c n tư v n ...... trên t p MovileLens1 ............................................................................................109 B ng 3.13. K t qu ki m nghi m p aired t-test v i K=50 s n ph m c n tư v n ...... trên t p MovieLens1..............................................................................................109 B ng 3.14. K t qu ki m nghi m p aired t-test v i K=10 s n ph m c n tư v n ...... trên t p MovileLens2 ............................................................................................109 B ng 3.15. K t qu ki m nghi m p aired t-test v i K=20 s n ph m c n tư v n ...... trên t p MovileLens2 ............................................................................................110 B ng 3.16. K t qu ki m nghi m p aired t-test v i K=50 s n ph m c n tư v n ...... trên t p MovileLens2 ............................................................................................110 10
- PH N M U 1 . Tính c p thi t c a lu n á n Vn quá t i thông tin (Information Overload) ư c J.Denning nêu ra ln u tiên vào năm 1982 [49]. V i nh ng lý l và b ng ch ng thuy t ph c, Denning kh ng nh kh năng l a ch n thông tin h u ích c a ngư i dùng máy tính s g p khó kh ăn nghiêm tr ng b i s gia tăng không ng ng lư ng thông tin kh ng l n t hàng trăm kênh truy n hình, hàng tri u băng hình, sách, báo, t p chí, tài li u thông qua các h th ng giao d ch i n t . V n Denning công b ngay l p t c ư c c ng ng các nhà khoa h c máy tính nhi t tình hư ng ng và t p trung nghiên c u phương pháp h n ch nh hư ng c a v n quá t i thông tin i v i ngư i dùng, thúc y m t lĩnh v c nghiên c u m i ó là l c thông tin. L c thông tin (Information Filtering) là lĩnh v c nghiên c u các quá trình l c b nh ng thông tin không thích h p và cung c p thông tin thích h p nv i m i ngư i dùng. L c thông tin ư c xem là phương pháp hi u qu h n ch tình tr ng quá t i thông tin ư c quan tâm nhi u nh t hi n n ay. L c thông tin ư c ti p c n theo hai xu hư ng chính, ó là l c d a trên tri th c và l c d a trên d li u. Trong trư ng h p d a vào tri th c, h th ng th c hi n l c thông tin b n g cách s d ng t p lu t xây d ng trư c. Như c i m c a phương pháp này là có ư c m t t p lu t t t òi h i chi phí nhi u th i gian và kinh nghi m c a chuyên gia; vi c c p nh t các lu t không th th c hi n ư c t ng vì ngu n d li u vào thư ng không có c u trúc và luôn trong tr ng thái bi n ng. Chính vì v y, l c d a trên tri th c có xu hư ng ít ư c s d ng. i v i các h th ng l c d a trên d li u, các quy t c l c ư c xây d ng t d li u mà h th ng thu th p ư c b ng các k thu t th ng kê ho c các thu t toán h c máy. Cách ti p c n này cho phép t ng c p nh t các quy t c l c và không l thu c vào tri th c chuyên gia. H th ng l c d a trên d li u có kh năng thích nghi cao và t n d ng ư c ngu n d li u. Chính vì v y, cách ti p c n này ư c quan tâm nghiên c u hơn so v i phương pháp d a vào tri th c. 11
- H tư v n (Recommender System) là h th ng có kh n ăng t ng phân tích, phân lo i, l a ch n và cung c p cho ngư i dùng nh ng thông tin, hàng hóa hay d ch v mà h quan tâm. H tư v n ư c xem như m t bi n th i n hình có vai trò quan tr ng trong l c thông tin. Nhi u h tư v n ã ư c thương m i hóa và tri n khai thành công, tiêu bi u là h tư v n c a các hãng Amazon.com, Netflix.com, Procter & Gamble. H tư v n ư c xây d ng d a trên hai k thu t l c thông tin chính: L c theo n i dung (Content-Based Filtering) và l c c ng tác (Collaborative Filtering). L c theo n i dung khai thác nh ng khía c nh liên quan n n i dung thông tin s n ph m ngư i dùng ã t ng s d ng hay truy nh p trong quá kh t o nên tư v n. Trái l i, l c c ng tác khai thác nh n g khía c nh liên quan n thói quen s d ng s n ph m c a c ng ng ngư i dùng có cùng s thích t o nên tư v n. Trong quá trình nghiên c u và ng d ng, bên c nh nh ng v n chung c a bài toán l c thông tin thông thư ng, xu t hi n m t s v n mang tính c thù i v i thông tin tư v n như tính thưa th t d li u hu n luy n, x lý ngư i dùng m i, hàng hóa m i, yêu c u k t h p các d ng thông tin khác nhau, làm vi c v i d li u kích thư c l n ư c c p nh t thư ng xuyên. M c dù ã có nhi u nghiên c u nh m t i n i dung này, nhưng ây v n là nh ng v n nghiên c u m , có tính th i s và thu hút s qua tâm c a c ng ng nghiên c u. tài “Phát tri n m t s phương pháp l c thông tin cho h tư v n” ư c th c hi n trong khuôn kh lu n án ti n sĩ chuyên ngành khoa h c máy tính nh m góp ph n gi i quy t m t s v n còn t n t i c a l c thông tin cho các h tư v n. 2 . M c tiêu c a lu n án M c tiêu c a lu n án là nghiên c u áp d ng, c i ti n m t s k thu t h c máy nh m c i thi n chính xác c a l c thông tin trong các h tư v n. c b i t, nghiên c u t p trung vào vi c nâng cao k t qu d oán nhu c u ngư i dùng trong trư ng h p d li u thưa, cũng như trong trư ng h p có c d li u s thích ngư i dùng và thông tin n i dung s n ph m. 12
- 3 . Các óng góp c a lu n án óng góp th nh t c a lu n án là xu t áp d ng m t k thu t Boosting c i ti n cho nhi u bài toán phân lo i vào l c c ng tác [3, 81], bao g m: - xu t phương pháp gi i quy t bài toán l c c ng tác b ng k thu t Boosting d a trên bi u di n d li u phù h p cho bài toán phân lo i c a h c máy; - Áp d ng k thu t Boosting c i ti n cho nhi u bài toán phân lo i b n g phương pháp h c a nhi m d a trên g c quy t nh (Decision Stump) cho l c c ng tác nh m h n ch nh hư ng c a v n d li u thưa; - Th nghi m và ánh giá k t qu phương pháp c i ti n, c bi t chú tr ng ánh giá k t qu d oán trong trư ng h p d li u thưa c a l c c ng tác. H u h t các phương pháp h c máy cho l c c ng tác hi n n ay u th c hi n nh ng nhi m v h c ơn l (Single Task Learning) v i gi thi t d li u hu n luy n và d li u ki m tra ư c mô t trong cùng m t không gian các giá tr c trưng v i cùng m t phân b . Khi phân b thay i, t p d li u hu n luy n và d li u ki m tra ph i xây d ng l i. Trên th c t , vi c làm này không ph i lúc nào cũng th c hi n ư c làm cho k t qu d oán các phương pháp kém tin c y. M t khác, t i m i th i i m, phương pháp ch th c hi n m t nhi m v ơn l , k t qu c a m i nhi m v c th hoàn toàn c l p v i các nhi m v khác. Chính vì v y, phương pháp ti p c n này s g p khó khăn khi d li u hu n luy n thưa th t. gi i quy t v n này, lu n án xu t áp d ng phương pháp h c a nhi m (Multi-Task Learning) cho l c c ng tác nh m s d ng t p thông tin chung gi a các nhi m v h c ơn l . T p thông tin chung tìm ư c óng vai trò chia s và b sung thông tin vào quá trình hu n luy n cho m i ngư i dùng khác nhau, góp ph n nâng cao k t qu d oán và h n ch ư c nh hư ng c a tình tr n g d li u thưa trong l c c ng tác. 13
- xu t m t phương pháp l c k t h p d a óng góp th hai c a lu n án là th [2, 80], bao g m: trên mô hình - Bi u di n m i liên h gi a các i tư ng tham gia h th ng l c (Ngư i dùng, s n ph m và n i dung s n ph m) d a vào mô hình th ; - Xây d ng phương pháp d oán cho l c c ng tác d a trên mô hình th . - Xây d n g phương pháp trích ch n c trưng n i dung s n ph m d a trên thói quen s d ng s n ph m c a ngư i dùng; - Cá nhân hóa nh hư ng c a các c trưng n i dung i v i thói quen s d ng s n ph m c a ngư i dùng; - Áp d ng thu t toán lan truy n m ng trên th k t h p d oán, phân b các s n ph m cho m i ngư i dùng; - Th nghi m và ánh giá k t qu phương pháp xu t. t n d ng l i th c a m i phương pháp l c, lu n án xu t phương pháp k t h p gi a l c c ng tác và l c n i dung d a trên bi u di n th các i tư ng tham gia quá trình l c, bao g m: ngư i dùng, s n ph m, ánh giá ngư i dùng và n i dung s n ph m. tránh nh ng h n ch c a các phương pháp l c k t h p trư c ây (phương pháp trích ch n c trưng n i dung ch d a vào n i dung s n ph m), lu n án xu t phương pháp trích ch n c trưng n i dung d a vào thói quen ngư i dùng i v i s n ph m. D a trên phương pháp này, nh ng c trưng n i dung ư c xem là quan tr ng v i m i ngư i dùng ư c gi l i ph c v m c tiêu d oán. Vi c tìm ra nh ng c trưng có nh hư ng quan tr ng n thói quen ngư i dùng không ch làm gi m chi phí tính toán c a phương pháp (vì s lư ng các c trưng n i dung quan tr ng i v i m i ngư i dùng còn l i r t ít), mà còn lo i b ưc nh ng c trưng không nh hư ng ho c nh hư ng không t t n thói quen s d ng s n ph m c a ngư i dùng. Phương pháp d oán ư c ưa v bài toán tìm ki m trên th không ch t n d ng ư c các thu t toán hi u qu trên th mà còn t n d ng ư c m i liên h gián ti p gi a các i tư ng tham gia h th ng. 14
- Phương pháp l c k t h p xu t ư c th nghi m và áp d ng cho h th ng tư v n l a ch n phim ã cho l i k t qu d oán t t. H th ng cho phép xem, ánh giá, bình lu n và g i ý nh ng phim ư c xem h p v i s thích ng v i m i ngư i dùng. H th ng g m b n ch c năng chính: Ch c n ăng c p nh t, phân tích thông tin ngư i dùng và s n ph m; ch c năng h c; ch c năng l c và ch c năng tư v n. Trong ó, ch c năng h c và l c ư c th c hi n theo phương pháp l c k t hp xu t. 4 . B c c c a lu n án N i dung lu n án ư c xây d ng thành ba chương và m t ph l c, trong ó : Chương 1. gi i thi u t ng quan v l c thông tin. Trình bày nh ng nghiên c u cơ b n c a l c thông tin, các phương pháp l c thông tin cho h tư v n và nh ng v n c n ti p t c nghiên c u c a m i phương pháp. Trên cơ nh n g nghiên c u cơ b n, xác nh rõ hư ng nghiên c u c a tài. M t k t qu nghiên c u cơ b n c a tài ư c công b trong [4]. Chương 2. trình bày phương pháp h n ch nh hư ng c a v n d li u thưa trong l c c ng tác b ng phương pháp h c a nhi m. N i dung trình bày trong chương này ư c t ng h p d a trên k t qu nghiên c u ã công b trong [3, 81]. Chương 3. trình bày phương pháp k t h p gi a l c c ng tác và l c n i dung d a trên mô hình th . N i dung trình bày trong chương này ư c t ng h p t k t qu n ghiên c u ã công b trong [2, 80]. Cu i cùng là m t s k t lu n và xu t các nghiên c u ti p theo. Ph n ph l c. trình bày thi t k và xây d ng ng d ng cho phương pháp l c k th p ư c xu t trong Chương 3. 15
- CHƯƠNG 1 T NG QUAN V L C THÔNG TIN CHO H TƯ V N Chương này trình bày nh ng v n t ng quan v l c thông tin, các phương pháp l c thông tin cho h tư v n cùng v i nh n g h n ch t n t i m i phương pháp. Trên cơ s nh ng nghiên c u cơ b n, xác nh rõ hư ng nghiên c u c th c a tài. Nh ng k t qu n ghiên c u c a tài s ư c trình bày trong các ch ương ti p theo c a lu n án. Do l c thông tin là lĩnh v c nghiên c u có ph m vi r ng l n , sau khi trình bày ng n v l c thông tin nói chung, lu n án t p trung trình bày vào ch nghiên c u chính c a lu n án ó là v n l c trong các h tư v n. 1 .1. GI I THI U CHUNG L c thông tin (IF) là lĩnh v c nghiên c u các quá trình cung c p thông tin thích h p, ngăn ng a và g b thông tin không thích h p cho m i ngư i dùng [75, 99]. Thông tin ư c cung c p (còn ư c g i là s n ph m) có th là văn b n, trang web, phim, nh, d ch v ho c b t kỳ d n g thông tin nào ư c s n sinh ra t các phương ti n truy n thông. Ph m vi ng d ng c a l c thông tin tr i r n g trong nhi u ng d ng th c t khác nhau c a khoa h c máy tính. ng d ng tiêu bi u n h t c a l c thông tin ư c k n là l c k t qu tìm ki m trong các máy tìm ki m (Search Engine), l c e-mail d a trên n i dung thư và h sơ ngư i dùng, l c thông tin văn b n trên các máy ch cung c p thông tin cho t p th ho c cá nhân thích h p, lo i b nh ng trang thông tin có nh hư ng không t t i v i ngư i dùng. c bi t, l c thông tin có vai trò quan tr ng cho các h th n g tư v n (RS ) ng d ng trong thương m i i n t . Các h th n g l c thông tin có th khác nhau v nguyên lý, ph ương pháp, k thu t, ph m vi ng d n g nh ưng u th c hi n m c tiêu cung c p cho ngư i dùng nh ng thông tin c n thi t nh t, lo i b nh ng thông tin không có giá tr ho c không thích h p i v i n gư i dùng. Nguyên lý ph bi n ư c dùng trong 16
- l c thông tin là nguyên lý d a vào d li u (Data-Based) và nguyên lý d a vào tri th c (Knowledge-Based) [99]. Các phương pháp l c có th ư c th c hi n d a vào n i dung thông tin s n ph m ho c l c d a trên thói quen s thích ngư i dùng. Các k thu t l c ư c phát tri n d a trên n n t ng t lĩnh v c truy v n thông tin (Information Retrieval), tách thông tin (Information Extraction), phân lo i thông tin (Information Classificarion). Ph m vi ng d ng c a các h th ng l c ư c áp d ng cho t t c các mô hình thương m i i n t th c t : Khách hàng - Khách hàng (Customer to Customer), Nhà cung c p - Khách hàng (Business to Customer), Nhà cung c p - Nhà cung c p (Business to Business) [75]. 1 .1.1. Ki n trúc t ng quát c a h th ng l c thông tin M t h th ng l c thông tin t ng quát bao g m b n thành ph n cơ b n [99]: Thành ph n phân tích d li u (Data Analyser Component), thành ph n mô hình ngư i dùng (User Model Component), thành ph n h c (Learning Component) và thành ph n l c ( Filtering Component). Thành ph n mô Thông tin c t Nhà cung c p Ngư i dùng hình ngư i dùng ngư i dùng thông tin Ph n h i S n ph m Thông tin các H sơ ngư i phù h p v i ngư i dùng s n ph m dùng ngư i dùng C p nh t t hông Bi u di n Thông tin hu n luy n Thành ph n Thành ph n tin s n ph m phân tích d hc Thành ph n l c Bi u di n Thông li u tin s n ph m Hình 1.1. Ki n trúc t ng quát c a h th ng l c thông tin. • Thành ph n phân tích d li u (DAC) có nhi m v thu th p d li u v s n ph m t các nhà cung c p thông tin (ví d tài li u, thư i n t , sách, báo, t p chí, phim, nh...). D li u v s n ph m ư c phân tích và bi u di n theo m t khuôn d ng thích h p, sau ó chuy n n b ph n l c như Hình 1.1. 17
- • Thành ph n mô hình ng ư i dùng (UMC) có th “hi n” ho c “ n” dùng ly thông tin v ngư i dùng, nh ư gi i tính, tu i, nơi sinh s ng và thông tin ngư i dùng ã truy v n trư c ó t o nên h sơ ngư i dùng. H sơ ngư i dùng sau khi t o ra ư c chuy n n thành ph n h c th c hi n nhi m v hu n luy n . • Thành ph n h c (LC) th c hi n hu n luy n trên t p h sơ và ph n h i c a n gư i dùng theo m t thu t toán h c máy c th . Thu t toán h c l y d li u t thành ph n mô t ngư i dùng; l y d li u v s n ph m ã ư c bi u di n t thành ph n l c k t h p v i thông tin ph n h i n gư i dùng th c hi n nhi m v hu n luy n. K t qu quá trình h c ư c chuy n l i cho b ph n l c th c hi n nhi m v ti p theo. • Thành ph n l c (FC) là thành ph n quan tr n g nh t c a h th ng, có nhi m v xem xét s phù h p gi a h sơ ngư i dùng và bi u d i n d li u s n ph m ưa ra quy t nh phân b s n ph m. N u d li u s n ph m phù h p v i h sơ n gư i dùng, s n ph m s ư c cung c p cho ngư i dùng ó . Trong trư ng h p ngư c l i, h th n g lo i b s n ph m kh i danh sách nh ng s n ph m p hân b cho ngư i dùng. Ngư i dùng nh n ư c nh n g s n ph m thích h p, xem xét, ánh giá, ph n h i l i cho thành ph n h c ph c v quá trình l c ti p theo. 1 .1.2. L c thông tin và truy v n thông tin Belkin và Croft [75] nhìn nh n l c thông tin và truy v n thông tin như h ai m t c a cùng m t v n . Chính vì v y, nhi u c trưng cơ b n c a l c thông tin có th tìm th y trong lĩnh v c truy v n thông tin (IR). Tuy nhiên, ta có th phân bi t s khác bi t gi a h ai h th ng này thông qua vi c so sánh m t s c trưng cơ b n dư i ây. • Ki u ng ư i dùng . H th ng truy v n thông tin áp ng nhu c u cho t t c n gư i dùng t i m i th i i m mà không c n quan tâm n h là ai. Trái 18
- l i, l c thông tin quan tâm n nh ng ngư i dùng thư ng xuyên s d n g h th ng dùng, có h sơ rõ ràng, có m i quan tâm dài h n ivih th n g và luôn nh n ư c thông tin thích h p t h th ng m i th i i m. • Bi u di n nhu c u thông tin. H th ng truy v n thông tin bi u di n nhu c u ngư i dùng b t kỳ dư i d ng m t câu truy v n. L c thông tin bi u di n nhu c u ngư i dùng lâu dài h th ng d ư i d ng m t h sơ ngư i dùng. H sơ ngư i dùng không ch ghi l i các c trưng thông tin cá nhân, mà còn bao hàm các c trưng liên quan n l ch s truy c p h ay thói quen s d ng thông tin c a ngư i dùng này. • M c tiêu h th ng. H th n g truy v n thông tin quan tâm n các phương pháp cung c p thông tin thích h p cho m i ngư i dùng phù h p v i truy v n c a ngư i dùng này. L c thông tin quan tâm n các phương pháp g b d li u hơn là vi c n l c tìm ki m thêm d li u. Cũng vì lý do này, l c thông tin ư c xem là phương pháp gi m t i thông tin chính ư c quan tâm nh t hi n nay. • Cơ s d li u. H th n g truy v n thông tin th c hi n cung c p thông tin trên các cơ s d li u tĩnh. L c thông tin cung c p thông tin trên cơ s d li u ng, có c u trúc khác nhau và thư ng xuyên bi n i. • Ph m vi tương tác. H th ng truy v n không quan tâm n s tương tác gi a nh ng ngư i dùng khác nhau. L c thông tin quan tâm n s tương ng theo s thích, thói quen hay nh ng c trưng xã h i, t n hiên khác nhau c a t p ngư i dùng. H th ng luôn có m t mô hình ngư i dùng gi l i nh ng c trưng c n thi t cho m i ngư i dùng. 1 .1.3. H c máy và l c thông tin H c máy (Machine Learning). H c máy là lĩnh v c n ghiên c u c a trí tu nhân t o t p trung vào vi c ra quy t nh ho c p hát hi n tri th c d a trên d li u [1, 85, 97]. Các k thu t h c máy ư c s d ng trong vi c d oán (ví 19
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Luận văn: Phát triển du lịch sinh thái Vườn Quốc Gia Tam Đảo trong bảo tồn đa dạng sinh học
13 p | 724 | 77
-
Luận văn Thạc sĩ Giáo dục học: Phát triển một số năng lực học tập của học sinh trong dạy học phần Hóa hữu cơ lớp 11 trung học phổ thông
178 p | 163 | 55
-
Luận văn: Phát triển chiến lược thị trường dịch vụ xây dựng của Tổng Công ty Xây dựng Sông Đà
118 p | 170 | 54
-
Luận văn tốt nghiệp: Một số biện pháp nhằm nâng cao khả năng thắng thầu xây lắp ở Công ty xây lắp và vật tư xây dựng Bộ nông nghiệp và phát triển nông thôn
75 p | 188 | 42
-
Luận văn tốt nghiệp: Một số giải pháp phát triển bán hàng bằng hình thức thương mại điện tử ở Việt Nam
45 p | 205 | 37
-
Luận văn tốt nghiệp: Một số giải pháp mở rộng hoạt động huy động vốn tại Ngân hàng Nông nghiệp và phát triển nông thôn – Huyện Ngân Sơn
39 p | 184 | 36
-
Luận văn Thạc sỹ: Một số biện pháp phát triển kỹ năng tự học cho học sinh qua sử dụng tài liệu tham khảo trong dạy học Lịch sử ở trường trung học phổ thông - Nguyễn Hồng Nhung
29 p | 166 | 36
-
Luận văn tốt nghiệp: “Một số giải pháp hoàn thiện chính sách phát triển công nghiệp Việt Nam giai đoạn 2001 2020”
65 p | 164 | 29
-
Tóm tắt luận văn Thạc sĩ: Một số vấn đề trong công tác quản trị và phát triển nguồn nhân lực của công ty cổ phần hệ thống tích hợp mới
22 p | 128 | 25
-
Luận văn Tiến sĩ Triết học: Vấn đề kế thừa, phát triển một số phạm trù cơ bản của đạo đức Nho giáo trong tư tưởng đạo đức Hồ Chí Minh
0 p | 185 | 24
-
Luận văn: Phát triển chăn nuôi lợn thịt theo tiêu chuẩn thực hành sản xuất nông nghiệp tốt (VietGAHP) trên địa bàn huyện Diễn Châu, tỉnh Nghệ An
110 p | 92 | 11
-
Luận văn Thạc sĩ Quản lý kinh tế: Phát triển một số sản phẩm dịch vụ du lịch chủ lực tại tỉnh Quảng Bình
65 p | 37 | 9
-
Luận văn Thạc sĩ Giáo dục học: Phát triển một số năng lực học tập cho học sinh trung bình - yếu trong dạy học Hóa học lớp 10 trung học phổ thông
166 p | 70 | 8
-
Luận văn Thạc sĩ Khoa học: Nghiên cứu tình hình khai thác và đề xuất giải bảo tồn, phát triển một số loài cây thuốc quý tại khu bảo tồn thiên nhiên Bà Núi Chúa
114 p | 24 | 6
-
Tóm tắt luận văn thạc sĩ: Phát triển cơ sở đào tạo nghề tại tỉnh Bình Định
14 p | 60 | 5
-
Tóm tắt Luận văn Thạc sĩ Sư phạm Hóa học: Phát triển một số năng lực cho học sinh trung học phổ thông thông qua dạy học chương Nitơ - photpho hóa học 11
13 p | 19 | 5
-
Luận văn Thạc sĩ Khoa học lâm nghiệp: Nghiên cứu tác động của người dân địa phương trong bảo tồn và phát triển một số loài cây chịu hạn trên đất cát ven biển tại xã Xuân Hòa, thị xã Sông Cầu, tỉnh Phú Yên
84 p | 26 | 3
-
Luận văn Thạc sĩ Khoa học: Phát triển một số thuật toán hiệu quả khai thác tập mục trên cơ sở dữ liệu số lượng có sự phân cấp các mục
120 p | 28 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn