intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận án Tiến sĩ Kỹ thuật: Hệ tư vấn dựa trên trường hàm ý thống kê

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:205

25
lượt xem
8
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án Tiến sĩ Kỹ thuật "Hệ tư vấn dựa trên trường hàm ý thống kê" trình bày các nội dung chính sau: Nghiên cứu áp dụng lý thuyết phân tích hàm ý thống kê, mà cụ thể là biến thiên hàm ý thống kê và trường hàm ý, để đề xuất các độ đo biến thiên hàm ý và khung khai thác luật có mức độ hàm ý cao (luật hàm ý) đáp ứng được yêu cầu của các hệ tư vấn, làm cơ sở để cải thiện chất lượng các mô hình tư vấn lọc cộng tác, từ đó làm phong phú thêm giải pháp kỹ thuật cho hệ tư vấn thông qua việc vận dụng phân tích hàm ý thống kê.

Chủ đề:
Lưu

Nội dung Text: Luận án Tiến sĩ Kỹ thuật: Hệ tư vấn dựa trên trường hàm ý thống kê

  1. ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN TẤN HOÀNG HỆ TƯ VẤN DỰA TRÊN TRƯỜNG HÀM Ý THỐNG KÊ LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng - Năm 2022
  2. ii ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN TẤN HOÀNG HỆ TƯ VẤN DỰA TRÊN TRƯỜNG HÀM Ý THỐNG KÊ Chuyên ngành: Khoa học máy tính Mã số: 9480101 LUẬN ÁN TIẾN SĨ KỸ THUẬT Người hướng dẫn khoa học: 1. PGS.TS Huỳnh Xuân Hiệp 2. TS. Huỳnh Hữu Hưng Đà Nẵng - Năm 2022
  3. LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện, dưới sự hướng dẫn của PGS.TS Huỳnh Xuân Hiệp và TS Huỳnh Hữu Hưng. . Tôi cam đoan các kết quả nghiên cứu được trình bày trong luận án là trung thực và không sao chép từ bất kỳ công trình nghiên cứu nào khác. Một số kết quả nghiên cứu là thành quả tập thể và đã được các đồng tác giả đồng ý cho sử dụng trong luận án. Mọi trích dẫn trong luận án đều có ghi nguồn gốc xuất xứ rõ ràng và đầy đủ. Tác giả Nguyễn Tấn Hoàng
  4. LỜI CẢM ƠN Để có thể hoàn thành luận án này, trước tiên tôi xin bày tỏ lòng biết ơn chân thành đến PGS.TS Huỳnh Xuân Hiệp và TS Huỳnh Hữu Hưng đã tận tình hướng dẫn, truyền đạt kiến thức và kinh nghiệm quý báu cho tôi trong suốt quá trình học tập và nghiên cứu khoa học. Trong thời gian thực hiện chương trình nghiên cứu sinh tại trường Đại học Bách khoa Đà Nẵng, tôi luôn được đào tạo và nhận được nhiều điều kiện thuận lợi cũng như những hỗ trợ kịp thời từ Phòng Đào tạo và Khoa Công nghệ thông tin mà tôi không thể không ghi nhận nơi đây. Bên cạnh đó, tôi cũng cảm ơn Ban lãnh đạo Sở Thông tin và Truyền thông tỉnh Đồng Tháp đã luôn hỗ trợ và tạo điều kiện tốt nhất về công việc và thời gian để tôi có thể tập trung nghiên cứu. Ngoài ra, tôi cũng xin chân thành cảm ơn các nhà khoa học đã dành thời gian và công sức đọc và đưa ra các góp ý vô cùng hữu ích để luận án được hoàn chỉnh hơn. Cuối cùng, tôi xin được gửi lời cảm ơn sâu sắc nhất đến gia đình, các bạn nghiên cứu sinh và các đồng nghiệp luôn bên cạnh, giúp đỡ và động viên tôi trong suốt thời gian học tập, nghiên cứu và hoàn thành luận án. Đà Nẵng, ngày 09 tháng 8 năm 2022 NCS. Nguyễn Tấn Hoàng
  5. i MỤC LỤC 1. LỜI CAM ĐOAN ...................................................................................................... I LỜI CẢM ƠN .......................................................................................................... II MỤC LỤC .................................................................................................................. I DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT .................................................. V DANH MỤC BẢNG ..............................................................................................VII DANH MỤC HÌNH ............................................................................................. VIII 0. MỞ ĐẦU ................................................................................................................1 1. CHƯƠNG 1. TỔNG QUAN VỀ TRƯỜNG HÀM Ý VÀ HỆ TƯ VẤN ..........8 1.1. Phân tích hàm ý thống kê............................................................................................. 8 1.1.1. Các độ đo hàm ý thống kê ..................................................................................... 14 1.1.1.1. Chỉ số hàm ý ................................................................................................... 15 1.1.1.2. Cường độ hàm ý ............................................................................................. 15 1.1.2. Trường hàm ý ........................................................................................................ 19 1.1.2.1. Biến thiên chỉ số hàm ý .................................................................................. 19 1.1.2.2. Trường hàm ý ................................................................................................. 20 1.1.2.3. Mặt đẳng trị hàm ý ......................................................................................... 21 1.2. Hệ tư vấn ..................................................................................................................... 22 1.2.1. Các thành phần của một hệ tư vấn ......................................................................... 23 1.2.2. Đánh giá ................................................................................................................. 24 1.2.2.1. Tổ chức dữ liệu đánh giá mô hình hệ tư vấn .................................................. 24 1.2.2.2. Đánh giá hiệu quả mô hình hệ tư vấn ............................................................. 27 1.2.3. Phân loại ................................................................................................................ 30 1.2.3.1. Hệ tư vấn dựa trên lọc nội dung ..................................................................... 31 1.2.3.2. Hệ tư vấn dựa trên lọc cộng tác ...................................................................... 34 1.2.3.3. Hệ tư vấn lai ghép ........................................................................................... 42 1.2.3.4. Các hệ tư vấn khác.......................................................................................... 44
  6. ii 1.2.4. Các lĩnh vực ứng dụng của hệ tư vấn .................................................................... 47 1.2.4.1. Quản lý hành chính nhà nước (e-government) ............................................... 47 1.2.4.2. Thương mại điện tử (e-commercial) ............................................................... 48 1.2.4.3. Thư viện điện tử (e-library) ............................................................................ 48 1.2.4.4. Học tập trực tuyến (e-learning) ...................................................................... 49 1.2.4.5. Du lịch trực tuyến (e-tourism) ........................................................................ 49 1.2.4.6. Quản lý tài nguyên (e-resource) ..................................................................... 49 1.2.5. Một số vấn đề về hệ tư vấn .................................................................................... 50 1.2.5.1. Dữ liệu thưa (Sparsity Problem) ..................................................................... 50 1.2.5.2. Thiếu dữ liệu ban đầu (Cold Start) ................................................................. 50 1.2.5.3. Khả năng mở rộng (Scalability) ..................................................................... 51 1.2.5.4. Quá chuyên môn (Over Specialization Problem) ........................................... 51 1.2.5.5. Xu hướng thiên lệch theo sự phổ biến (Popularity bias) ................................ 51 1.2.5.6. Độ đo đối xứng (Symmetric measure problem) ............................................. 52 1.2.6. Một số vấn đề về hệ tư vấn dựa trên mô hình khai thác luật ................................. 53 1.2.7. Một số vấn đề về hệ tư vấn dựa trên phân tích hàm ý thống kê ............................ 55 1.3. Đề xuất nghiên cứu ..................................................................................................... 60 1.4. Kết luận chương .......................................................................................................... 61 2. CHƯƠNG 2. MÔ HÌNH HỆ TƯ VẤN DỰA TRÊN TRƯỜNG HÀM Ý .....62 2.1. Mô hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý ......................................... 63 2.1.1. Phân tích các vấn đề của hệ tư vấn dựa trên mô hình khai thác luật kết hợp ........ 63 2.1.2. Độ biến thiên hàm ý thống kê và ngưỡng biến thiên hàm ý .................................. 67 2.1.2.1. Độ đo biến thiên hàm ý thống kê.................................................................... 68 2.1.2.2. Ngưỡng biến thiên chỉ số hàm ý ..................................................................... 69 2.1.2.3. Ngưỡng biến thiên cường độ hàm ý ............................................................... 71 2.1.3. Luật kết hợp và khung khai thác luật..................................................................... 74 2.1.3.1. Luật kết hợp .................................................................................................... 74 2.1.3.2. Mô hình hoá luật kết hợp và khung khai thác luật kết hợp ............................ 74 2.1.4. Mô hình tư vấn và đánh giá mô hình ..................................................................... 92 2.1.4.1. Mô hình .......................................................................................................... 92 2.1.4.2. Đánh giá mô hình ........................................................................................... 96
  7. iii 2.1.4.3. Chọn mô hình tốt nhất .................................................................................. 103 2.1.4.4. Tối ưu hoá các thông số của mô hình ........................................................... 105 2.2. Mô hình tư vấn dựa trên trường hàm ý thống kê .................................................. 105 2.2.1. Các vấn đề của hệ tư vấn dựa trên biến thiên hàm ý thống kê ............................ 105 2.2.2. Luật hàm ý và khung khai thác luật hàm ý .......................................................... 106 2.2.2.1. Mô hình hoá luật hàm ý ................................................................................ 107 2.2.2.2. Mô hình hoá khung khai thác luật hàm ý ..................................................... 109 2.2.2.3. Thủ tục tư vấn và thuật toán sử dụng ........................................................... 113 2.2.3. Mô hình................................................................................................................ 114 2.2.4. Đánh giá mô hình ................................................................................................ 115 2.3. Kết luận chương ........................................................................................................ 122 3. CHƯƠNG 3. THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ........................124 3.1. Dữ liệu thực nghiệm ................................................................................................. 125 3.1.1. Tập dữ liệu Movielens và phân bố dữ liệu của nó ............................................... 125 3.1.2. Tập dữ liệu MSWeb và phân bố dữ liệu của nó .................................................. 128 3.2. Công cụ thực nghiệm ................................................................................................ 131 3.3. Thực nghiệm.............................................................................................................. 132 3.3.1. Thực nghiệm mô hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý ................ 132 3.3.1.1. Mô hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý theo người dùng .... 133 3.3.1.2. Mô hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý theo mục ............... 138 3.3.2. Thực nghiệm mô hình tư vấn dựa trên trường hàm ý thống kê ........................... 144 3.3.2.1. Thực nghiệm trên dữ liệu phân hoạch theo số giao dịch của tập dữ liệu ..... 145 3.3.2.2. Thực nghiệm trên dữ liệu phân hoạch theo mục đánh giá của giao dịch ..... 151 3.4. Kết luận chương ........................................................................................................ 158 4. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN.......................................................160 Kết luận ............................................................................................................................. 160 Hướng phát triển ............................................................................................................. 161 5. DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ ...............163 6. TÀI LIỆU THAM KHẢO ................................................................................165 PHỤ LỤC ................................................................................................................... I Phụ lục 1: Chứng minh các độ đo hàm ý thống kê là không đối xứng ............................ i
  8. iv Phụ lục 2: Chứng minh sự tương đương của các công thức chỉ số hàm ý trong trường hợp dữ liệu nhị phân ...........................................................................................................iii Phụ lục 3: Các Phân phối xác suất quan trọng có liên quan trong luận án .................. iv
  9. v DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT Thuật ngữ Tiếng Anh Viết tắt Implication/Implicative intensity Cường độ hàm ý IInt Propension intensity Implication intensity variation Biến thiên cường độ hàm ý Implication/Implicative index Chỉ số hàm ý IInd Propesion index Implication index variation Biến thiên chỉ số hàm ý Độ đo hấp dẫn chủ quan Subjective interestingness measure Độ đo hấp dẫn khách quan Objective interestingness measure Độ lợi tích lũy giảm dần Normalized discounted cumulative gain nDCG Độ đo Sai số tuyệt đối trung bình Mean Absolute Error MAE Độ đo sai số bình phương trung bình Mean Square Error MSE Độ đo căn bậc hai của sai số bình Root Mean Square Error RMSE phương trung bình Recommender/Recommendation Hệ tư vấn RS systems Association rule based recommender Hệ tư vấn dựa trên luật kết hợp ARRS system Hệ tư vấn dựa trên nội dung Content-based recommender system CBRS Hệ tư vấn dựa trên tri thức Knowledge-based recommender system KBRS Hệ tư vấn lai ghép Hybrid recommender system HRS Hệ tư vấn dựa trên trường hàm ý Statistic implication field based IFSRS thống kê recommender system Mặt đẳng trị Equipotential plane/surface EP/ES
  10. vi Mô hình tư vấn lọc cộng tác dựa trên Implication variation based model biến thiên hàm ý Mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên User implicative rating based model UIR người dùng Mục/Mục dữ liệu Item Phân tích hàm ý thống kê Statistical implicative analysis SIA Phản ví dụ Counter-example Sai số bình phương trung bình Root of mean squared error RMSE Sai số tuyệt đối trung bình Mean absolute error MAE Trường hàm ý thống kê Statistical implication field SIF
  11. vii DANH MỤC BẢNG Bảng 1-1 Dữ liệu các giao dịch phim........................................................................11 Bảng 1-2 Trình bày dạng nhị phân dữ liệu các giao dịch phim ................................12 Bảng 1-3 Tập dữ liệu các giao dịch đánh giá các bộ phim .......................................16 Bảng 1-4 Biểu diễn nhị phân của dữ liệu trong Bảng 1-3.........................................17 Bảng 1-5 Biểu diễn phi nhị phân của dữ liệu trong Bảng 1-3 ..................................18 Bảng 1-6 Bảng ma trận nhầm lẫn kết quả đánh giá mô hình ....................................29 Bảng 2-1 Các độ đo biến thiên hàm ý thống kê ........................................................69 Bảng 2-2 Biến thiên của 𝒏𝑨, 𝒏𝑩, 𝒏𝑨𝑩 và 𝒒 khi thêm hay bỏ một mục của tập dữ liệu ......................................................................................................................70 Bảng 2-3 Các đại lượng biến thiên khi một phần tử được bổ sung vào (hay loại bỏ ra khỏi) mẫu dữ liệu................................................................................................72 Bảng 2-4 Bảng tương quan (Contingency table) giữa 𝒂, 𝒃 cho luật 𝒂 → 𝒃 ............75 Bảng 2-5 Bảng ma trận nhầm lẫn kết quả đánh giá mô hình ..................................102 Bảng 2-6 Bảng ma trận nhầm lẫn kết quả đánh giá mô hình ..................................122 Bảng 3-1 Thống kê dữ liệu đánh giá phim .............................................................126 Bảng 3-2 Bảng thống kê tập dữ liệu MSWeb .........................................................128 Bảng 3-3 Mật độ của trường hàm ý trên các mặt đẳng trị và chỉ số hàm ý của nó.134 Bảng 3-4 Mặt đẳng trị chỉ số hàm ý thứ 1 trên trường hàm ý .................................134 Bảng 3-5 Tổng hợp các chỉ số lỗi dự đoán của mô hình ISF ..................................136 Bảng 3-6 Mật độ của trường hàm ý trên các mặt đẳng trị và chỉ số hàm ý theo yếu tố biến thiên byFactor ...........................................................................................139 Bảng 3-7 Các luật hàm ý và chỉ số hàm ý trên mặt đẳng trị số 3 ...........................139 Bảng 3-8 Chỉ số lỗi dự đoán của mô hình ISF với các mô hình IBCF và UBCF ...141 Bảng 3-9 Thực nghiệm độ chính xác hai mô hình trên tập dữ liệu nhị phân ..........146 Bảng 3-10 Độ chính xác thực nghiệm hai mô hình trên tập dữ liệu định lượng ....148 .
  12. viii DANH MỤC HÌNH Hình 0-1 Mối quan hệ giữa các chương trong luận án................................................7 Hình 1-1 Minh hoạ thành phần của phân tích hàm ý thống kê bởi giản đồ VENN ..11 Hình 1-2 So sánh số lượng các phản ví dụ quan sát được với mô hình xác suất ......13 Hình 1-3 Minh họa mối quan hệ potentials S phụ thuộc vào 2 biến 𝒏𝑨, 𝒏𝑩 ...........22 Hình 1-4 Phân loại các hệ tư vấn theo kỹ thuật tiếp cận ...........................................31 Hình 1-5 Hệ Tư vấn dựa trên nội dung ....................................................................34 Hình 1-6 Hệ tư vấn lọc cộng tác ...............................................................................35 Hình 1-7 Hệ tư vấn lọc cộng tác dựa trên người dùng ..............................................36 Hình 1-8 Hệ tư vấn lọc cộng tác dựa trên mục .........................................................37 Hình 1-9 Hệ tư vấn lai ...............................................................................................43 Hình 1-10 Các hướng nghiên cứu hệ tư vấn tiếp cận phân tích hàm ý thống kê ......60 Hình 2-1 Ba trường hợp với xác suất có điều kiện không đổi .................................65 Hình 2-2 Lưu đồ qui trình xử lý của khung khai thác luật kết hợp hàm ý ................80 Hình 2-3 Mô hình hệ tư vấn lọc cộng tác dựa trên biến thiên hàm ý .......................93 Hình 2-4 Ví dụ phân tách dữ liệu theo phương pháp đánh giá chéo k-fold với k=5 98 Hình 2-5 Quy trình đánh giá hệ tư vấn .....................................................................99 Hình 2-6 Lưu đồ thuật toán đánh giá mô hình tư vấn .............................................103 Hình 2-7 Quy trình xử lý của khung khai thác luật hàm ý cho mô hình tư vấn dựa trên trường hàm ý ....................................................................................................112 Hình 2-8 Mô hình hệ tư vấn dựa trên trường hàm ý thống kê ................................115 Hình 2-9 Minh hoạ phân hoạch dữ liệu theo mục đánh giá trên mỗi giao dịch......119 Hình 2-10 Lưu đồ thuật toán đánh giá mô hình tư vấn dựa trên trường hàm ý ......120 Hình 3-1 Biểu đồ phân phối xếp hạng phim ...........................................................127 Hình 3-2 Biểu đồ phân phối xếp hạng phim trung bình..........................................128 Hình 3-3 Biểu đồ phân phối xếp hạng phim trung bình có liên quan .....................128 Hình 3-4 Biểu đồ thống kê phân phối số lượng người dùng ...................................130 Hình 3-5 Biểu đồ thống kê phân phối số lượng người dùng có liên quan ..............130 Hình 3-6 gói công cụ implicationFieldRS ..............................................................132 Hình 3-7 Biểu đồ so sánh lổi dự đoán của các mô hình..........................................136 Hình 3-8 Precision và Recall của mô hình ISF và lọc cộng tác dựa trên người dùng ..........................................................................................................................137 Hình 3-9 Đường cong ROC của các mô hình ISF và lọc cộng tác trên người dùng ..........................................................................................................................137 Hình 3-10 Đường cong ROC của mô hình ISF và các mô hình IBCF ...................138 Hình 3-11 Precision và Recall của mô hình ISF và các mô hình IBCF..................138 Hình 3-12 Biểu đồ so sánh lổi dự đoán của các mô hình........................................141 Hình 3-13 Đường cong ROC so sánh giữa ISF và các mô hình UBCF khác .........142 Hình 3-14 Precision và Recall so sánh giữa ISF và các mô hình UBCF khác .......142
  13. ix Hình 3-15 Đường cong ROC so sánh giữa ISF và các mô hình IBCF ...................143 Hình 3-16 Precision và Recall so sánh giữa ISF và các mô hình IBCF .................143 Hình 3-17 Độ chính xác của mô hình hệ tư vấn dựa trên luật hàm ý theo các givens khác nhau trên tập dữ liệu nhị phân. ................................................................145 Hình 3-18 Độ chính xác của mô hình hệ tư vấn dựa trên luật hàm ý theo các givens khác nhau trên tập dữ liệu phi nhị phân. ..........................................................145 Hình 3-19 Đường cong ROC của các mô hình ARRS và IFARRS trên tập dữ liệu MSWeb .............................................................................................................147 Hình 3-20 Đường cong Precision/Recall của các mô hình ARRS và IFARRS trên tập dữ liệu MSWeb.................................................................................................147 Hình 3-21 Biểu đồ so sánh F1 của các mô hình ARRS và IFARRS trên tập dữ liệu MSWeb .............................................................................................................147 Hình 3-22 Đường cong ROC của mô hình ARRS và IFARRS trên tập dữ liệu Movielens .........................................................................................................149 Hình 3-23 Đường cong Precision/ recall của mô hình ARRS và IFARRS trên tập dữ liệu Movielens ..................................................................................................149 Hình 3-24 Biểu đồ so sánh F1 của các mô hình ARRS và IFARRS trên tập dữ liệu Movielens .........................................................................................................149 Hình 3-25 So sánh thời gian mô hình hóa, thời gian dự báo và kích thước của tập luật của hai mô hình ................................................................................................150 Hình 3-26 Biểu đồ đường cong ROC của mô hình IFARRS và lọc cộng tác dựa trên người dùng, trên mục của dữ liệu định lượng. .................................................151 Hình 3-27 Biểu đồ đường cong Precision/recall của mô hình IFARRS và lọc cộng tác dựa trên người dùng, trên mục của dữ liệu định lượng. ..................................151 Hình 3-28 Đồ thị Scatter 3D của Trường hàm ý và mặt đẳng trị của nó ................152 Hình 3-29 Đồ thị đồ hoạ 3D của Trường hàm ý và mặt đẳng trị của nó. ..............152 Hình 3-30 Trường hàm ý và mặt đẳng trị của nó trong đường countour ................153 Hình 3-31 Biến thiên hàm ý trong trường hàm ý ....................................................153 Hình 3-32 Đường cong ROC của mô hình ISF và mô hình lọc cộng tác với k = 15. ..........................................................................................................................154 Hình 3-33 Đường cong precision/ recall của mô hình ISF và mô hình lọc cộng tác với k = 15. ...............................................................................................................154 Hình 3-34 F1 của mô hình ISF và mô hình lọc cộng tác với k = 15. ......................154 Hình 3-35 nDCG của mô hình ISF và mô hình lọc cộng tác với k = 15. ...............154 Hình 3-36 Rankscore của mô hình ISF và mô hình lọc cộng tác với k = 15 ..........155 Hình 3-37 Precision/recall các mô hình ISF và các mô hình khác trong SIA ........156 Hình 3-38 Đường cong ROC các mô hình ISF và các mô hình khác trong SIA ....156 Hình 3-39 F1 của các mô hình ISF và các mô hình khác trong SIA ......................157 Hình 3-40 Rankscore của các mô hình ISF và các mô hình khác trong SIA ..........157
  14. x Hình 3-41 nDCG của các mô hình ISF và các mô hình khác trong SIA ................157
  15. 1 0. MỞ ĐẦU 1. Tính cấp thiết của luận án Trong thời đại bùng nổ thông tin hiện nay, các công cụ tìm kiếm đang đứng trước một thử thách ngày càng lớn: sự gia tăng và tích tụ mạnh mẽ của các thông tin với tốc độ ngày càng nhanh, rất khó để chọn ra thông tin hữu ích nhằm đưa ra quyết định dựa trên một số lượng lớn các dữ liệu trong một thời gian ngắn. Xu hướng chuyển dịch, mở rộng từ hoạt động tìm kiếm thông tin sang tư vấn, khuyến nghị thông tin diễn ra nhanh chóng hơn bao giờ hết. Do vậy, dù có nguồn gốc từ một số lĩnh vực khác như khoa học nhận thức [5] và tìm kiếm thông tin[29], nhưng từ giữa những năm 1990, hệ tư vấn [27] (recommender system, recommendation system) thực sự nổi lên như một lĩnh vực nghiên cứu độc lập và thu hút được nhiều quan tâm cũng như tạo được nhiều thành quả ngày càng phong phú. Đến nay, hệ tư vấn trở thành một công cụ được các nhà nghiên cứu và phát triển ứng dụng tạo ra các thuật toán dự đoán những gì người dùng có thể hoặc không thể chọn trong số các danh mục nhất định. Chúng thật sự là một sự bổ sung thú vị cho các công cụ tìm kiếm trong nhiều lĩnh vực ứng dụng khác nhau, giúp người dùng chọn đúng các sản phẩm hoặc nội dung mà họ có thể sẽ không tìm thấy nếu không sử dụng đến các công cụ này. Điều này làm cho hệ tư vấn trở thành một thành phần tuyệt vời và không thể thiếu ở các trang web thương mại điện tử, tìm kiếm và các dịch vụ điện tử, cụ thể như Youtube tự động chuyển các clip có liên quan đến clip mà bạn đang xem hoặc giới thiệu các đoạn phim mà bạn thích; Amazon sẽ tự động giới thiệu các sản phẩm thường được mua với nhau hoặc đề xuất các mặt hàng mà bạn có thể thích dựa trên lịch sử mua hàng của bạn khi bạn mua sắm trên đó; Facebook khuyến cáo một người bạn hoặc chương trình quảng cáo các sản phẩm liên quan đến từ khóa mà bạn vừa tìm kiếm; Netflix tự động giới thiệu phim cho người dùng và nhiều ví dụ khác mà Internet có khả năng tự động khuyến nghị cho người dùng những sản phẩm mà họ có thể thích. Trong thực tế, hơn 65% phim đã được xem bởi các khách hàng của Netflix là những phim được đề xuất, 35% doanh thu tại Amazon phát sinh từ các mục được đề nghị, 28% người muốn mua thêm nhạc trên ChoiceStream nếu họ tìm thấy những gì họ thích [108] … Bằng cách khuyến nghị hợp lý như thế, hiệu quả của tiếp thị cũng sẽ
  16. 2 tăng lên. Các thuật toán đằng sau các ứng dụng này là các thuật toán học máy, mà cụ thể là các thuật toán hệ tư vấn. Tuy vậy, do là một lĩnh vực mới phát triển nên chất lượng và hiệu quả của các thuật toán tư vấn vẫn còn nhiều vấn đề cần phải quan tâm như là các vấn đề về nâng cao độ chính xác của các dự đoán cho các khuyến nghị, nâng cao hiệu suất xử lý trên tập dữ liệu lớn để giảm thiểu thời gian thực hiện các mô hình và đưa ra các khuyến nghị theo thời gian thực, xử lý dữ liệu thưa trên các tập dữ liệu khuyến nghị, thiếu dữ liệu trong các hệ thống tư vấn (người dùng mới hay sản phẩm mới) và nhiều vấn đề khác nữa . Để nâng cao chất lượng và hiệu quả của các khuyến nghị, Hệ tư vấn sử dụng nhiều kỹ thuật khai thác dữ liệu và học máy khác nhau để giúp người dùng xác định các mục phù hợp nhất với thị hiếu hoặc nhu cầu của họ. Các kỹ thuật này ngày càng được sử dụng để cải thiện chất lượng các khuyến nghị trong các ứng dụng thành công trước đó, cũng như trong các hệ tư vấn đề xuất mới, để đưa ra các khuyến nghị chính xác, độc đáo, bất ngờ và hiệu quả đối với các thử thách trong các lĩnh vực trước đây[12][121]. Việc sử dụng các thuật toán khai thác dữ liệu đã thúc đẩy chất lượng của các thuật toán hệ tư vấn một cách đáng kể. Trong các công cụ khai thác dữ liệu, phân tích hàm ý thống kê (ASI- Analysis Statistical Implication) dù chỉ mới được đề xuất vào cuối thập niên 1990 [94][95] bởi Regis Gras1 với mục đích ban đầu là phân tích dữ liệu phục vụ cho việc giảng dạy toán học[21], nhưng đến nay nó đã phát triển nhanh chóng và được ứng dụng trong nhiều lĩnh vực khác trong đời sống như tâm lý học[45], bản thể học[44], …Đặc biệt, thời gian gần đây đã được nghiên cứu áp dụng trong lĩnh vực hệ tư vấn [76][77][78][79][92], nét đặc thù của ASI so với nhiều công cụ phân tích dữ liệu khác là nó tập trung vào việc phân tích yếu tố phản ví dụ (counter-example hay unlikelihood) thay vì dựa vào yếu tố xác nhận (example hay likelihood) cho việc suy luận phân tích dữ liệu, một điểm khác biệt nữa là nó sử dụng độ đo dựa trên xác suất mang tính bất đối xứng, thống kê, phi tuyến và ổn định tốt với nhiễu [35][97][98]. Trong nghiên cứu này, SIA được đề xuất ứng dụng vào việc xây dựng mô hình hệ tư vấn với mong muốn góp phần cải thiện các kết quả khuyến nghị thông qua một số đặc tính quan trọng và độc đáo của nó. 1 https://univ-nantes.academia.edu/R%C3%A9gisGras
  17. 3 Luận văn “Hệ tư vấn dựa trên trường hàm ý thống kê” được thực hiện trong phạm vi nghiên cứu của luận án tiến sĩ chuyên ngành khoa học máy tính tại Trường Đại học Bách khoa Đà Nẵng nhằm đóng góp một phần vào lĩnh vực nghiên cứu phát triển hệ tư vấn, cụ thể là cải thiện hiệu quả của mô hình tư vấn lọc cộng tác dựa trên khai thác luật trên trường hàm ý. 2. Mục tiêu, đối tượng và phạm vi nghiên cứu của luận án 2.1. Mục tiêu nghiên cứu Luận án nghiên cứu áp dụng lý thuyết phân tích hàm ý thống kê, mà cụ thể là biến thiên hàm ý thống kê và trường hàm ý, để đề xuất các độ đo biến thiên hàm ý và khung khai thác luật có mức độ hàm ý cao (luật hàm ý) đáp ứng được yêu cầu của các hệ tư vấn, làm cơ sở để cải thiện chất lượng các mô hình tư vấn lọc cộng tác, từ đó làm phong phú thêm giải pháp kỹ thuật cho hệ tư vấn thông qua việc vận dụng phân tích hàm ý thống kê. Cụ thể hơn, luận án hướng đến các mục tiêu chính sau: - Khảo sát tổng quan các kỹ thuật xây dựng hệ tư vấn cùng các thành tựu cũng như những hạn chế của chúng. - Nghiên cứu phương pháp phân tích hàm ý thống kê, đặc biệt là trường hàm ý sinh ra từ sự biến thiên của các độ đo chỉ số hàm ý và cường độ hàm ý. - Nghiên cứu cách tiếp cận xây dựng khung khai thác mới có liên quan đến việc ứng dụng biến thiên hàm ý trong trường hàm ý cho bài toán khai thác dữ liệu dựa trên luật vào bài toán hệ tư vấn, nhằm giảm thiểu các hạn chế của khung khai thác luật dựa trên độ hỗ trợ và độ tin cậy (support-confidence) đối với bài toán tư vấn. - Nghiên cứu cách tiếp cận xây dựng khung khai thác mới có liên quan đến việc sử dụng mặt đẳng trị hàm ý trong trường hàm ý cho bài toán khai thác dữ liệu dựa trên luật vào bài toán hệ tư vấn, nhằm giảm thiểu các hạn chế của khung khai thác luật dựa trên độ hỗ trợ và độ tin cậy đối với bài toán tư vấn. - Mở rộng cách tiếp cận xây dựng khung khai thác mới có liên quan đến việc xây dựng mô hình hệ tư vấn trong trường hàm ý với các luật nhị phân và định lượng vào bài toán hệ tư vấn, nhằm tăng cường tính chính xác của các dự báo và thời gian xử lý. - Nghiên cứu đánh giá, so sánh các mô hình tư vấn lọc cộng tác hiện nay, trong đó, chú ý đến mô hình tư vấn dựa trên lọc cộng tác sử dụng hướng tiếp cận khai thác
  18. 4 luật kết hợp. Trên cơ sở đó, đề xuất các mô hình tư vấn lọc cộng tác dựa trên trường hàm ý. 2.2. Đối tượng nghiên cứu Luận án tập trung vào các đối tượng nghiên cứu sau: - Trường hàm ý và luật cùng các độ đo hàm ý trên trường hàm ý. - Khung khai thác luật hàm ý dựa trên sự cải tiến Khung khai thác độ hỗ trợ và độ tin cậy cho bài toán hệ tư vấn. - Mô hình hệ tư vấn theo hướng tiếp cận khai thác luật hàm ý với các độ đo biến thiên hàm ý đã xây dựng. -Mô hình hệ tư vấn theo hướng tiếp cận khai thác luật hàm ý dựa trên mặt đẳng trị trong trường hàm ý. - Sử dụng khung khai thác hàm ý để khai thác luật hàm ý định lượng cho bài toán hệ tư vấn trong trường hàm ý (vừa xử lý cho luật hàm ý nhị phân lẫn luật hàm ý định lượng). 2.3. Phạm vi nghiên cứu Luận án tập trung vào phạm vi nghiên cứu biến thiên hàm ý và trường hàm ý của lý thuyết phân tích hàm ý thống kê cũng như phân tích các hạn chế của hệ tư vấn lọc cộng tác đặc biệt là hệ tư vấn lọc cộng tác dựa trên mô hình khai thác luật kết hợp và các mô hình tư vấn dựa trên tiếp cận phân tích hàm ý thống kê hiện có để đề xuất nghiên cứu hệ tư vấn dựa trên trường hàm ý. Bao gồm: - Tìm hiểu phương pháp phân tích dữ liệu hàm ý thống kê, biến thiên hàm ý, mặt đẳng trị hàm ý và trường hàm ý. - Tìm hiểu và phân tích các hạn chế của hệ tư vấn lọc cộng tác đặc biệt là hệ tư vấn lọc cộng tác dựa trên mô hình khai thác luật kết hợp và các mô hình tư vấn dựa trên tiếp cận phân tích hàm ý thống kê hiện có. -Tập các độ đo biến thiên chỉ số hàm ý và biến thiên cường độ hàm ý làm cơ sở cho việc đề xuất các mô hình tư vấn. - Khung khai thác luật kết hợp thoả mãn độ đo hàm ý (luật hàm ý). - Phương pháp phân hoạch dữ liệu phù hợp với các tập dữ liệu tư vấn để đánh giá các mô hình tư vấn.
  19. 5 - Các tiêu chí xếp hạng mục được khuyến nghị để đánh giá hệ tư vấn. - Mô hình tư vấn dựa trên biến thiên hàm ý. - Mô hình tư vấn dựa trên trường hàm ý. 3. Các đóng góp của luận án Luận án có những đóng góp sau: - Thứ nhất đề xuất sử dụng lý thuyết phân tích hàm ý thống kê, cụ thể là biến thiên hàm ý thống kê và trường hàm ý, vào việc xây dựng một tập các độ đo biến thiên hàm ý thống kê phục vụ cho việc khai thác các luật kết hợp có ý nghĩa hàm ý (trong luận án này gọi là luật kết hợp hàm ý hay luật hàm ý) cho bài toán tư vấn trên cả tập dữ liệu nhị phân và phi nhị phân. Kết quả thực nghiệm cho thấy mô hình đưa ra các mục tư vấn cho người dùng có hiệu quả trong việc cải thiện thời gian xử lý và độ chính xác trên cả ba nhóm độ đo đánh giá (độ chính xác dự đoán mục, độ chính xác phân lớp danh sách mục và độ chính xác xếp hạng vị trí mục khuyến nghị). - Thứ hai là đề xuất các mô hình tư vấn lọc cộng tác dựa trên việc tiếp cận phân tích hàm ý thống kê tối ưu hóa tập luật để tăng độ chính xác và tính ngạc nhiên (tính bất ngờ thú vị) của các kết quả khuyến nghị. Đầu tiên là mô hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý thống kê giúp cải thiện chất lượng luật cho việc khuyến nghị người dùng. Mô hình này sử dụng tập dữ liệu nhị phân sinh ra tập luật kết hợp nhị phân, sau đó sử dụng độ đo biến thiên hàm ý để lọc các luật thỏa mãn thêm yêu cầu của các độ đo hàm ý và đưa ra các kết quả tư vấn. Kết quả thực nghiệm cho thấy việc sử dụng độ đo biến thiên hàm ý giúp cải thiện đáng kể chất lượng khuyến nghị so với đa số các mô hình lọc cộng tác truyền thống. Kế đến, để mở rộng phạm vi xử lý cho cả dữ liệu phi nhị phân và cải thiện hơn nữa chất lượng khuyến nghị cũng như thời gian thực hiện mô hình, mô hình tư vấn dựa trên trường hàm ý được phát triển trên nền tảng mô hình đề xuất đầu tiên này để thực hiện tư vấn dựa trên khai thác các luật hàm ý dưới dạng các mặt đẳng trị trong trường hàm ý, các đóng góp chính của mô hình này là (1) xử lý được cả trên dữ liệu nhị phân và phi phị phân mà không qua quá trình nhị phân hoá dữ liệu, (2) cải thiện đáng kể hiệu quả mô hình khai thác luật cho hệ tư vấn cả về thời gian và độ chính xác. - Thứ ba là đề xuất khung khai thác luật hàm ý dựa trên việc kế thừa các ưu điểm của khung khai thác luật kết hợp và tích hợp với độ đo biến thiên hàm ý để cải thiện độ chính xác và thời gian thực thi của mô hình tư vấn dựa trên khai thác luật.
  20. 6 Khung khai thác luật này được ứng dụng cho mô hình tư vấn lọc cộng tác dựa trên luật hàm ý và đối sánh với các mô hình tư vấn dựa trên luật kết hợp và các mô hình tư vấn lọc cộng tác điển hình như lọc cộng tác dựa trên người dùng và dựa trên mục. Qua kết quả thực nghiệm trên hai tập dữ liệu: tập dữ liệu xếp hạng dạng số thực (MovieLens) và tập dữ liệu xếp hạng dạng nhị phân (MSWeb) cho thấy mô hình sử dụng khung khai thác luật hàm ý có độ chính xác cao hơn và thời gian xử lý nhanh hơn so với các mô hình còn lại [36][37][79]. - Và cuối cùng là xây dựng được bộ công cụ thực nghiệm implicationFieldRS trên ngôn ngữ R. Bộ công cụ này gồm các chức năng: xử lý dữ liệu, sinh luật (bao gồm luật kết hợp và luật hàm ý), xác định các tham số hàm ý thống kê, tính giá trị hàm ý cho luật kết hợp và luật hàm ý dựa trên các tham số hàm ý thống kê, đưa ra các mục cho khuyến nghị, các chức năng xây dựng và đánh giá các mô hình tư vấn lọc cộng tác. 4. Bố cục của luận án Dựa trên mục tiêu, đối tượng và phạm vi nghiên cứu nêu trên, ngoài phần mở đầu và phần kết luận và hướng phát triển, luận án được cấu trúc gồm phần mở đầu, 3 chương và kết thúc bởi phần kết luận cùng hai phụ lục. Mối quan hệ về kiến thức giữa các chương trong luận án được trình bày chi tiết trong Hình 0-1. Phần mở đầu: Giới thiệu sự cần thiết, mục tiêu, đối tượng, phạm vi nghiên cứu và các đóng góp của luận án. Chương 1: Giới thiệu tổng quan về phương pháp phân tích hàm ý thống kê, sự biến thiên hàm ý thống kê và trường hàm ý. Nghiên cứu các mô hình tư vấn, các vấn đề gặp phải trong lĩnh vực nghiên cứu hệ tư vấn đặc biệt là hệ tư vấn dựa trên khai thác luật cùng các mô hình đề xuất của luận văn. Chương 2: Trình bày mô hình tư vấn dựa trên khai thác luật với sự biến thiên hàm ý (chỉ số hàm ý thống kê hoặc cường độ hàm ý) trong trường hàm ý, thông qua việc tiếp cận cách sử dụng khung khai thác độ hỗ trợ và độ tin cậy để sinh luật sau đó dùng độ biến thiên của chỉ số hàm ý hoặc cường độ hàm ý trong trường hàm ý để lọc ra một tập luật kết hợp mạnh có mức độ hàm ý phù hợp. Ngoài ra để mở rộng bài toán cho dữ liệu phi nhị phân cũng như để khắc phục hơn nữa các nhược điểm của mô hình tư vấn dựa trên khai thác luật kết hợp, mô hình tư vấn dựa trên trường hàm ý cũng được đề xuất trong chương này.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
4=>1