intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Tóm tắt Luận án Tiến sĩ Kỹ thuật: Hệ tư vấn dựa trên trường hàm ý thống kê

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:27

5
lượt xem
3
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Tóm tắt Luận án Tiến sĩ Kỹ thuật "Hệ tư vấn dựa trên trường hàm ý thống kê" được nghiên cứu với mục tiêu: Khảo sát về hệ tư vấn và nghiên cứu nội dung cơ bản của hàm ý thống kê đặc biệt là biến thiên hàm ý và trường hàm ý làm cơ sở cho việc nghiên cứu đề xuất khung khai thác luật hàm ý (luật kết hợp thoả mãn điều kiện hàm ý thống kê) , và từ đó đề xuất ứng dụng khung khai thác luật hàm ý trong việc xây dựng mô hình tư vấn dựa trên trường hàm ý.

Chủ đề:
Lưu

Nội dung Text: Tóm tắt Luận án Tiến sĩ Kỹ thuật: Hệ tư vấn dựa trên trường hàm ý thống kê

  1. ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA ---------- NGUYỄN TẤN HOÀNG HỆ TƯ VẤN DỰA TRÊN TRƯỜNG HÀM Ý THỐNG KẾ Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 9.48.01.01 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐÀ NẴNG – 2022
  2. Công trình được hoàn thành tại: TRƯỜNG ĐẠI HỌC BÁCH KHOA - ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: 1. PGS. TS. Huỳnh Xuân Hiệp 2. TS. Huỳnh Hữu Hưng Phản biện 1:……………………………...…………… Phản biện 2:………………...………………………… Phản biện 3:………………………...………………… Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp Trường họp tại: Đại học Đà Nẵng Vào hồi….....giờ.........ngày.......tháng.......năm…….… Có thể tìm hiểu luận án tại: - Thư viện Quốc gia - Trung tâm Thông tin – Học liệu, Đại học Đà Nẵng
  3. 1 MỞ ĐẦU 1. Tính cấp thiết của luận án Trong thế giới trực tuyến, nơi thông tin đang phát triển với tốc độ cấp số nhân theo đà phát triển của thương mại điện tử, dịch vụ lưu trử trực tuyến và cung cấp thông tin, việc tìm kiếm thông tin phù hợp với nhu cầu đang là một thách thức đối với người dùng để có thể đưa ra các quyết định đúng đắn. Các hệ tư vấn nhanh chóng chứng tỏ là một công cụ rất hữu dụng trong việc hỗ trợ cung cấp thông tin cần thiết và có liên quan cho người dùng lẫn các tổ chức cung cấp dịch vụ, thương mại trong các tình huống như vậy. Tuy nhiên, để đáp ứng nhu cầu ngày càng cao về chất lượng cũng như số lượng các khuyến nghị của các tổ chức cung cấp dịch vụ trực tuyến và người dùng trên môi trường Intenet, việc nghiên cứu các thuật toán tư vấn mới hoặc cải tiến hệ tư vấn để nâng cao chất lượng các khuyến nghị, hạn chế hoặc khắc phục các điểm yếu của các kỹ thuật tư vấn, nhất là ứng dụng khoa học dữ liệu và học máy vào lĩnh vực hệ tư vấn đang là vấn đề cấp thiết và là xu hướng thu hút nhiều nghiên cứu hiện nay. Trong lĩnh vực khoa học dữ liệu và học máy, Phân tích hàm ý thống kê là một phương pháp phân tích dữ liệu mới do Regis Gras đề xuất vào cuối thập niên 90 của thế kỷ trước với mục đích nghiên cứu các khuynh hướng và các mối quan hệ giữa các thuộc tính (biến) dữ liệu thông qua các mẫu tri thức dạng luật. Các mẫu tri thức này được đánh giá thông qua các độ đo hàm ý thống kê như cường độ hàm ý, chỉ số hàm ý, ... Mặc dù là một lý thuyết còn non trẻ nhưng đã được áp dụng trong nhiều lĩnh vực khác nhau như giảng dạy, tâm lý, bản thể học… Gần đây, chúng đã được đề xuất ứng dụng trong lĩnh vực tư vấn. Tuy vậy, các nghiên cứu ứng dụng phân tích hàm ý thống kê vào hệ tư vấn còn chưa nhiều và những đóng góp của nó còn khá khiêm tốn so với tiềm năng ứng dụng của nó. Nhằm góp phần giải quyết các vấn đề nêu trên, nghiên cứu sinh đã chọn đề tài “Hệ tư vấn dựa trên trường hàm ý thống kê” làm nội dung nghiên cứu luận án Tiến sỹ kỹ thuật.
  4. 2 2. Mục tiêu, đối tượng và phạm vi nghiên cứu của luận án 2.1. Mục tiêu nghiên cứu Mục tiêu của luận án là khảo sát về hệ tư vấn và nghiên cứu nội dung cơ bản của hàm ý thống kê đặc biệt là biến thiên hàm ý và trường hàm ý làm cơ sở cho việc nghiên cứu đề xuất khung khai thác luật hàm ý (luật kết hợp thoả mãn điều kiện hàm ý thống kê) , và từ đó đề xuất ứng dụng khung khai thác luật hàm ý trong việc xây dựng mô hình tư vấn dựa trên trường hàm ý. 2.2. Đối tượng nghiên cứu Đối tượng nghiên cứu của luận án gồm: Các độ đo biến thiên hàm ý trong trường hàm ý hình thành từ quá trình biến thiên hàm ý thống kê; Các mô hình tư vấn khai thác luật sử dụng biến thiên hàm ý và mô hình tư vấn dựa trên trường hàm ý; nghiên cứu và cải tiến phương pháp đánh giá mô hình tư vấn, cũng như nghiên cứu đề xuất các kịch bản thực nghiệm cho mô hình tư vấn lọc cộng tác áp dụng phân tích hàm ý thống kê. 2.3. Phạm vi nghiên cứu Luận án được giới hạn trong phạm vi sau: Tìm hiểu lý thuyết hàm ý thống kê đặc biệt là biến thiên hàm ý thống kê, kỹ thuật tư vấn lọc cộng tác, các nghiên cứu về hệ tư vấn dựa trên phân tích hàm ý thống kê trước đây để làm cơ sở cho việc đề xuất; và Đề xuất các mô hình tư vấn mới có thể áp dụng trên cả dữ liệu nhị phân và phi nhị phân và cải tiến hiệu quả tư vấn (được đánh giá qua tính chính xác của mục được dự đoán, phân lớp mục khuyến nghị, xếp hạng mục được dự đoán). 3. Phương pháp nghiên cứu Phương pháp nghiên cứu được sử dụng bao gồm - Nghiên cứu lý thuyết về hệ tư vấn đặc biệt các hệ tư vấn lọc cộng tác dựa trên mô hình khai thác luật, lý thuyết phân tích hàm ý thống kê theo hướng phân tích biến thiên hàm ý thống kê và trường hàm ý để đề xuất các mô hình tư vấn; - Phương pháp thực nghiệm để kiểm chứng mô hình tư vấn đề xuất
  5. 3 4. Bố cục của luận án Luận án được tổ chức thành các nội dung sau: Phần mở đầu giới thiệu về tính cấp thiết, mục tiêu, đối tượng, phạm vi nghiên cứu và phương pháp nghiên cứu của luận án. Chương 1: Tổng quan về trường hàm ý thống kê và hệ tư vấn. Chương 2: Các mô hình hệ tư vấn dựa trên trường hàm ý, bao gồm mô hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý và mô hình tư vấn dựa trên trường hàm ý thống kê. Chương 3: Thực nghiệm và đánh giá kết quả. Phần kết luận bao gồm những đóng góp chính và hướng phát triển. Các phụ lục: Các chứng minh (1) tính bất đối xứng của các độ đo hàm ý thống kê; và (2) sự tương đương của các công thức chỉ số hàm ý. 5. Đóng góp của luận án - Đề xuất một bộ các độ đo biến thiên hàm ý thống kê làm cơ sở cho việc xây dựng các khung khai thác luật hàm ý và mô hình tư vấn. - Đề xuất một khung khai thác luật kết hợp hàm ý (luật hàm ý) dựa trên sự tích hợp khung khai thác luật kết hợp và độ đo biến thiên hàm ý. - Đề xuất các mô hình tư vấn bao gồm (1) Mô hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý để tạo khuyến nghị dựa trên mặt đẳng trị hàm ý của các luật kết hợp có ý nghĩa hàm ý và được áp dụng cho các tập dữ liệu nhị phân; (2) Mô hình này sau đó được cải tiến và phát triển thành mô hình tư vấn dựa trên trường hàm ý thống kê có thể áp dụng trên cả dữ liệu nhị phân và phi nhị phân. - Đề xuất phương pháp phân hoạch dữ liệu dựa trên mục được đánh giá trên từng giao dịch thay cho phương pháp phân hoạch dữ liệu dựa trên số lượng giao dịch trong tập dữ liệu để nâng cao chất lượng huấn luyện và đánh giá mô hình tư vấn và được áp dụng cho mô hình tư vấn dựa trên trường hàm ý. - Phát triển công cụ xây dựng, huấn luyện và đánh giá hệ tư vấn implicationfieldRS và các kịch bản thực nghiệm mô hình tư vấn đề xuất sử dụng công cụ này.
  6. 4 CHƯƠNG 1. TỔNG QUAN VỀ TRƯỜNG HÀM Ý THỐNG KÊ VÀ HỆ TƯ VẤN 1.1. Phân tích hàm ý thống kê và Trường hàm ý Phân tích hàm ý thống kê (SIA), một phương pháp nghiên cứu mối quan hệ dạng luật giữa các biến và/hoặc giữa các biến và các luật với nhau do Regis Gras đề xuất vào thập niên 1990, theo đó SIA đề xuất các độ đo hàm ý có các đặc tính thống kê, bất đối xứng, phi tuyến và dựa vào xác suất thống kê để đánh giá mối quan hệ giữa các biến dữ liệu. Trong SIA, mối quan hệ 𝑎 → 𝑏 (luật, quy tắc) trở nên khá ổn định khi số xác nhận của nó đạt tới một mức tin cậy xác định. Thường khó để thay thế luật ban đầu này bằng một luật khác khi có ít phản ví dụ mới xuất hiện nhưng sự nghi ngờ sẽ dần dần xuất hiện. Nếu số phản ví dụ mới tăng thì sự tin cậy của luật có thể giảm và luật có thể được điều chỉnh hoặc thậm chí bị loại bỏ. Luật vẫn có thể chấp nhận được khi số phản ví dụ vẫn còn chấp nhận được. Ý tưởng cơ bản ẩn sau SIA là một luật (mối quan hệ/ mẫu tri thức) được quan sát thống kê chấp nhận càng ít số phản ví dụ thì nó càng có hàm ý. Do vậy, SIA quan tâm đến các tham số mà chúng có thể bị bỏ qua trong những độ đo khác. Ví dụ, độ tin cậy confidence quan tâm đến các tham số 𝑛 𝐴𝐵 và 𝑛 𝐴 mà không quan tâm đến các tham số 𝑛, 𝑛 𝐵 , 𝑛 𝐴𝐵 như trong các độ đo của SIA. ̅ 1.1.1. Các độ đo hàm ý thống kê Phân tích hàm ý thống kê sử dụng hai độ đo chính để đánh giá mức độ hàm ý của mối quan hệ 𝑎 → 𝑏 là chỉ số hàm ý 𝑛𝐴 𝑛̅ 𝐵 𝑛 𝐴𝐵 − ̅ 𝑛 , 𝑎, 𝑏 ∈ {0,1} 𝑛 𝑛𝐵 √ 𝐴 ̅ 𝑛 𝑞(𝑎, ̅ ) = 𝑏 𝑛 𝐴 𝑛 ̅𝐵 ∑ 𝑖∈𝐸 𝑎( 𝑖) ̅ ( 𝑖) − 𝑏 (1.1) 𝑛 , 𝑎, 𝑏 ∈ [0,1] 2 𝑠2 + 𝑛2 )((𝑛2 𝑠2 + 𝑛2 ) (𝑛 𝐴 𝐴 ̅𝐵 ̅𝐵 √ 𝑛 3 {
  7. 5 Và cường độ hàm ý được xác định (theo phân phối poision) bởi công thức (1.2a) ̅) 𝑐𝑎𝑟𝑑( 𝐴∩𝐵 𝜆𝑠 𝑒−𝜆 , 𝜑( 𝑎, 𝑏) = { ∑ 𝑠! 𝑛𝐵 ≠ 𝑛 (1.2a) 𝑠=0 0, 𝑛ế𝑢 𝑛𝑔ượ𝑐 𝑙ạ𝑖 Trong trường hợp xấp xỉ được thoả mãn (ví dụ λ ≥ 4) biến ngẫu nhiên 𝑄(𝑎, ̅ ) là xấp xĩ phân phối chuẩn N (0,1), 𝜑(𝑎, 𝑏) được xác định 𝑏 theo công thức (1.2b) ∞ 1 𝑡2 ∫ 𝑒 − 2 𝑑𝑡 , 𝑛𝐵 ≠ 𝑛 𝜑(𝑎, 𝑏) = √2𝜋 (1.2b) ̅ 𝑞(𝑎,𝑏 ) { 0, 𝑛ế𝑢 𝑛𝑔ượ𝑐 𝑙ạ𝑖 Trong đó, chỉ số hàm ý càng thấp thì cường độ hàm ý càng cao và mức mức độ hàm ý càng lớn 1.1.2. Sự biến thiên chỉ số hàm ý và trường hàm ý Sự biến thiên của 𝑞(𝑎, ̅ ) đối với các biến (𝑛, 𝑛 𝐴 , 𝑛 𝐵 , 𝑛 𝐴𝐵 ) tạo nên 𝑏 ̅ một trường vector vô hướng C mà theo ý nghĩa hình học của Frechet được diễn đạt theo cách sau (công thức 1.3): 𝜕𝑞 𝜕𝑞 𝜕𝑞 𝜕𝑞 𝜑𝑑𝑞 = 𝑑𝑛 + 𝑑𝑛 𝐴 + 𝑑𝑛 𝐵 + 𝑑𝑛 𝐴𝐵 = 𝑔𝑟𝑎𝑑𝑞. 𝑑𝑀 ̅ (1.3) 𝜕𝑛 𝜕𝑛 𝐴 𝜕𝑛 𝐵 𝜕𝑛 𝐴𝐵 ̅ Với M là điểm có tọa độ (𝑛, 𝑛 𝐴 , 𝑛 𝐵 , 𝑛 𝐴𝐵 ) của trường vecter vô ̅ hướng 𝐶, 𝑑𝑀 là vertor thành phần vi phân của các biến và grad q là vertor đạo hàm riêng của các biến.Trường gradient này thoả mãn tiêu chí Schwartz về vi phân hỗn hợp cho từng cặp biến 𝑋, 𝑌 ∈ {𝑛, 𝑛 𝐴 , 𝑛 𝐵 , 𝑛 𝐴𝐵 } và được gọi là trường hàm ý. ̅ 𝜕 𝜕𝑞(𝑎, ̅ ) 𝑏 𝜕 𝜕𝑞(𝑎, ̅ ) 𝑏 ( )= ( ) (1.4) 𝜕𝑛 𝑋 𝜕𝑛 𝑌 𝜕𝑛 𝑌 𝜕𝑛 𝑋 Trường hàm ý sinh ra từ sự biến thiên của chỉ số hàm ý, bao gồm tập các mặt đẳng trị của các luật hàm ý có cùng giá trị hàm ý thống kê được xác định theo phương trình (1.5).
  8. 6 𝑛 𝐴 𝑛 ̅𝐵 𝑛 𝐴𝐵 − ̅ 𝑞(𝑎, ̅ ) − 𝑏 𝑛 =0 𝑛 𝐴 𝑛 ̅𝐵 (1.5) √ 𝑛 1.2. Hệ tư vấn 1.2.1 Định nghĩa Một hệ tư vấn bao gồm tập hợp của người dùng được ký hiệu là U (users), và tập các mục bằng I (items). Hơn nữa, tập các xếp hạng (rating) trong hệ thống được biểu thị bởi R, và tập các giá trị có thể có cho một đánh giá là S(Scores). Mô hình hệ tư vấn được xây dựng như hàm 𝑓 trong công thức (1.6). 𝑓: 𝑈 × 𝐼 → 𝑆 (1.6) Và nhiệm vụ của nó là dự đoán đánh giá 𝑓(𝑢, 𝑖) của một người dùng 𝑢 ⊂ 𝑈 cho một mục mới 𝑖 ⊂ 𝐼, Hàm này sau đó được sử dụng để giới thiệu cho người dùng mục tiêu 𝑢 𝑎 một một mục 𝑖 ∗ mà đánh giá ước tính có giá trị cao nhất theo (1.7) 𝑖 ∗ = 𝑎𝑟𝑔 max 𝑓(𝑢 𝑎 , 𝑗) (1.7) 𝑗∈𝐼\𝐼 𝑢 1.2.2 Đánh giá Việc đánh giá mô hình tư vấn sẽ được thực hiện theo các tiếp cận: splitting, bootstraping và đánh giá chéo k-fold. Có hai nhóm độ đo phổ biến để đánh giá các khuyến nghị của các hệ tư vấn, đó là nhóm các độ đo tính chính xác dự báo xếp hạng (MAE, MSE, RMSE) và nhóm các độ do chính xác phân lớp các mục khuyến nghị (precision, recall, F1). 1.2.2 Phân loại Xét theo kỹ thuật tiếp cận hệ tư vấn được xây dựng theo các kỹ thuật lọc theo nội dung; lọc cộng tác, bao gồm dựa trên bộ nhớ (dựa trên người dùng, dựa trên mục) và dựa trên mô hình (xây dựng các mô hình học máy cho hệ tư vấn); các kỹ thuật khác và lai ghép giữa các kỹ thuật với nhau. Trong đó, kỹ thuật được sử dụng phổ biến và hiệu quả nhất là kỹ thuật lọc cộng tác.
  9. 7 1.3. Tình hình nghiên cứu và đề xuất Tìm hiểu tình hình nghiên cứu phát triển hệ tư vấn nói chung và hệ tư vấn dựa trên kỹ thuật lọc cộng tác nói riêng đặt biệt là hệ tư vấn lọc cộng tác dựa trên mô hình khai thác luật kết hợp và mô hình lọc cộng tác tiếp cận phân tích hàm ý thống kê. Từ đó chỉ ra các vấn đề hạn chế của chúng và đề xuất hướng nghiên cứu xây dựng hệ tư vấn dựa trên trường hàm ý thống kê. 1.4. Kết luận Chương 1 tìm hiểu về lý thuyết hàm ý thống kê, đặc biệt là biến thiên hàm ý, trường hàm ý; hệ tư vấn; tình hình nghiên cứu hệ tư vấn cùng các vấn đề gặp phải trong nghiên cứu của hệ tư vấn nói chung, và hệ tư vấn dựa trên khai thác luật cũng như hệ tư vấn theo hướng tiếp cận ứng dụng hàm ý thống kê nói riêng, và từ đó đề xuất nghiên cứu mô hình tư vấn mới dựa trên trường hàm ý nhằm cải thiện độ hiệu quả của các khuyến nghị.
  10. 8 CHƯƠNG 2. CÁC MÔ HÌNH HỆ TƯ VẤN DỰA TRÊN TRƯỜNG HÀM Ý THỐNG KÊ 2.1. Mô hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý 2.1.1. Các vấn đề của hệ tư vấn dựa trên khai thác luật kết hợp Trong lĩnh vực hệ tư vấn, các thuật toán khai thác luật kết hợp (ARM – Association Rule Mining) gặp phải một số vấn đề khiến chất lượng của các luật không đủ tốt cho các khuyến nghị, bao gồm (1) Khung khai thác luật kết hợp chỉ xử lý trên dữ liệu nhị phân; (2) Chưa đáp ứng yêu cầu về thời gian và chất lượng của luật cho bài toán khuyến nghị; (3) Độ tin cậy của luật là không nhạy cảm và không thể hiện được tương quan giữa tiền đề và hậu quả; (4) Các độ đo sinh luật mang tính đối xứng như độ tin cậy, lift và một số độ đo hấp dẫn khác là chưa phù hợp đối với các bài toán khuyến nghị, nơi mà vai trò của các mục/người dùng không phải lúc nào cũng giống nhau; (5) Độ hỗ trợ giảm với sự gia tăng kích thước của luật; (6) Số lượng luật được tạo tăng theo cấp số nhân với số lượng mục; và (7) Bản chất khung khai thác độ hỗ trợ và độ tin cậy chưa quan tâm đến số phản ví dụ trong khi trên thực tế, một luật phải có số xác nhận càng cao và phản ví dụ càng thấp thì luật càng mạnh hơn. Từ các vấn đề của khung khai thác luật kết hợp nêu trên, luận án đề xuất tạo ra một phiên bản khung khai thác luật kết hợp hiệu quả hơn dựa trên biến thiên hàm ý. 2.1.2. Độ đo biến thiên hàm ý và ngưỡng biến thiên hàm ý Độ đo là một trong những vấn đề cốt lỏi trong việc xây dựng mô hình tư vấn, đối với mô hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý, ngoài các độ đo của khung khai thác luật là độ hỗ trợ và độ tin cậy, còn xây dựng độ đo biến thiên hàm ý để lọc ra một tập các mặt đẳng trị hàm ý của các luật làm cơ sở cho các khuyến nghị của mô hình tư vấn. Độ đo biến thiên hàm ý thống kê Các độ đo được đề xuất sử dụng cho mô hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý bao gồm các độ đo biến thiên của chỉ số hàm
  11. 9 ý 𝑞(𝑎, ̅ ) và cường độ hàm ý 𝜑(𝑎, 𝑏) theo các yếu tố 𝑛, 𝑛 𝐴 , 𝑛 𝐵 và 𝑛 𝐴𝐵 𝑏 ̅ được mô tả trong Bảng 2.1. Bảng 2.1 Các độ đo biến thiên hàm ý thống kê Độ đo Mô tả Công thức tính 𝑞𝑛 Biến thiên ̅ ) + ∆𝑞 𝑛 = 𝑞(𝑎, ̅ ) + 1 (𝑛 𝐴𝐵 + .𝑞(𝑎, 𝑏 𝑏 ̅ 𝑛 𝐴 𝑛̅ 𝐵 ) chỉ số hàm ý 2√𝑛 𝑛 theo 𝑛 𝑞𝑛𝐴 Biến thiên 1 𝑛 𝐴𝐵 𝑛 3 1 𝑛 .𝑞(𝑎, ̅ ) + ∆𝑞 𝑛 𝐴 = 𝑞(𝑎, ̅ ) + − ̅ 2 chỉ số hàm ý 𝑏 𝑏 ( ) − √ ̅𝐵 2 𝑛̅𝐵 𝑛 2 𝐴 𝑛 𝐴 √ theo 𝑛 𝐴 𝑛 𝑞𝑛𝐵 Biến thiên 1 𝑛 − 1 .𝑞(𝑎, ̅ ) + ∆𝑞 𝑛 𝐵 = 𝑞(𝑎, ̅ ) + 2 chỉ số hàm ý 𝑏 𝑏 𝑛 𝐴𝐵 ( 𝐴) ̅ (𝑛 − 2 𝑛 1 theo 𝑛 𝐵 − 3 1 𝑛 𝐴 2 − 1 𝑛 𝐵) 2 + ( ) (𝑛 − 𝑛 𝐵 ) 2 2 𝑛 𝑞 𝑛 𝐴𝐵 Biến thiên 1 ̅ .𝑞(𝑎, ̅ ) + ∆𝑞 𝑛 𝐴𝐵 = 𝑞(𝑎, ̅ ) + 𝑏 ̅ 𝑏 chỉ số hàm ý √ 𝑛 𝐴 (𝑛−𝑛 𝐵 ) 𝑛 theo 𝑛 𝐴𝐵 ̅ 𝜑𝑛 Biến thiên ̅ −𝑡2 1 𝑞 𝑛 (𝑎,𝑏 ) cường độ .𝜑(𝑎, 𝑏) + ∆𝜑 𝑛 = 𝜑(𝑎, 𝑏) + ∫ ̅ 𝑒 2 𝑑𝑡 √2𝜋 𝑞(𝑎,𝑏 ) hàm ý theo 𝑛 𝜑𝑛𝐴 Biến thiên 1 ̅ 𝑞 𝑛 (𝑎,𝑏 ) −𝑡2 cường độ .𝜑(𝑎, 𝑏) + ∆𝜑 𝑛 𝐴 = 𝜑(𝑎, 𝑏) + ∫ 𝐴̅ 𝑒 2 𝑑𝑡 √2𝜋 𝑞(𝑎,𝑏) hàm ý theo 𝑛𝐴 𝜑𝑛𝐵 Biến thiên 1 ̅ 𝑞 𝑛 (𝑎,𝑏 ) −𝑡2 cường độ .𝜑(𝑎, 𝑏) + ∆𝜑 𝑛 𝐵 = 𝜑(𝑎, 𝑏) + ∫ 𝐵̅ 𝑒 2 𝑑𝑡 √2𝜋 𝑞(𝑎,𝑏 ) hàm ý theo 𝑛𝐵 𝜑 𝑛 𝐴𝐵 ̅ Biến thiên 1 𝐴𝐵 𝑞𝑛 ̅ (𝑎,𝑏) ̅ −𝑡2 cường độ .𝜑(𝑎, 𝑏) + ∆𝜑 𝑛 𝐴𝐵 = 𝜑(𝑎, 𝑏) + ̅ ∫𝑞(𝐴,𝐵) ̅ 𝑒 2 𝑑𝑡 √2𝜋 hàm ý theo 𝑛 𝐴𝐵 ̅ Ngưỡng biến thiên hàm ý thống kê Trong thực nghiệm, trên một mặt đẳng trị hàm ý bao gồm tập các luật có các giá trị hàm ý xấp xỉ nhau với một ngưỡng hàm ý 𝜃, ngưỡng biến thiên hàm ý này cần được xác định, tuỳ độ đo mà có ngưỡng biến thiên chỉ số hàm ý hay ngưỡng biến thiên cường độ hàm ý. Ngưỡng biến thiên chỉ số hàm ý Chỉ số hàm ý biến thiên theo một trong các giá trị , 𝜉 ∈ (𝑛, 𝑛 𝐴 , 𝑛 𝐵 , 𝑛 𝐴𝐵 ) được xác định bởi công thức (2.1). ̅
  12. 10 𝛿𝑞(𝑎, ̅ ) 𝑏 𝛥𝑞(𝑎, ̅ ) 𝑏 = 𝑚𝑎𝑥 + 𝑜 (𝑞(𝑎, ̅ )) , 𝜉 ∈ (𝑛, 𝑛 𝐴 , 𝑛 𝐵 , 𝑛 𝐴𝐵 ) 𝑏 ̅ (2.1) 𝛿𝜉 𝛥𝜉 𝛥𝜉 Ngưỡng biến thiên cường độ hàm ý Cũng giống như sự biến thiên chỉ số hàm ý ngưỡng biến thiên cường độ hàm ý được xác định theo công thức (2.2). 𝜕𝜑(𝑎, 𝑏) 𝛥𝜑 (2.2) = 𝑚𝑎𝑥 + 𝑜(𝜑(𝑎, 𝑏)), 𝜉 ∈ (𝑛, 𝑛 𝐴 , 𝑛 𝐵 , 𝑛 𝐴𝐵 ) ̅ 𝜕𝜉 𝛥𝜉 𝛥𝜉 2.1.3. Luật kết hợp và khung khai thác luật kết hợp Mô hình hoá luật kết hợp và khung khai thác luật Để xây dựng mô hình, các luật kết hợp được mô hình và biểu diển ở dạng phân tích hàm ý thống kê như ở công thức (2.3) 𝑛𝐴 ≤ 𝑛 𝑛𝐵 ≤ 𝑛 | 𝑛 ≤ 𝑛, max(0, 𝑛 + 𝑛 − 𝑛) 𝐵 𝐴 𝐵 ℛ 𝐴𝑆𝑆 = (𝑛, 𝑛 𝐴 , 𝑛 𝐵 , 𝑛 𝐴𝐵 ) ̅ ≤ 𝑛 𝐴𝐵 ≤ min(𝑛 𝐴 , 𝑛 𝐵 ) ̅ (2.3) | 𝑙𝑒𝑛𝑔ℎ𝑡ℛ 𝐴𝑆𝑆 ≤ 𝑘 { |𝑟ℎ𝑠ℛ 𝐴𝑆𝑆 | = 1 } Trong đó luật ℛ 𝐴𝑆𝑆 được biểu diễn bỡi bộ 4 (𝑛, 𝑛 𝐴 , 𝑛 𝐵 , 𝑛 𝐴𝐵 ) theo quan điểm hàm ý thống kê, và thoả mãn các điều kiện ràng buột 𝑛 𝐴 ≤ 𝑛, 𝑛 𝐵 ≤ 𝑛 , 𝑛 𝐵 ≤ 𝑛, max(0, 𝑛 𝐴 + 𝑛 𝐵 − 𝑛) ≤ 𝑛 𝐴𝐵 ≤ min(𝑛 𝐴 , 𝑛 𝐵 ) , và chiều dài luật nhỏ hơn ngưỡng 𝑘 để loại bỏ các luật dài có ý nghĩa không đáng kể trong lĩnh vực tư vấn, đồng thời giảm thời gian khai thác cũng như hạn chế số lượng luật trong phạm vi quản lý, tính toán. Khung khai thác luật kết hợp được gọi là 𝐹ℛ 𝐴𝑆𝑆 , được dùng để sinh tập các luật kết hợp (ℛ 𝐴𝑆𝑆 ) sử dụng thuật toán Apriori và các ngưỡng độ hỗ trợ và độ tin cậy (𝑚𝑖𝑛𝑠𝑢𝑝 và 𝑚𝑖𝑛𝑐𝑜𝑛𝑓 tương ứng). Sau đó kết hợp với độ biến thiên hàm ý như trình bày trong Bảng 1 để lọc ra các luật có hàm ý thống kê cao nhất, Thuật toán khung khai thác dựa trên thuật toán apriori có tuỳ chỉnh như Hình 2.1
  13. 11 Hình 1.1 Khung khai thác luật kết hợp sử dụng biến thiên hàm ý Khung khai thác luật kết hợp sử dụng biến thiên hàm ý được mô hình hoá như công thức (2.4) và được hoạt động theo các bước (1) Dùng thuật toán apriori để sinh các tập mục thường xuyên thoả ngưỡng độ hỗ trợ 𝑠𝑢𝑝𝑝𝑜𝑟𝑡 từ ma trận 𝑅 𝑈𝐼 được chuyễn dạng từ tập dữ liệu 𝐷 (2) Sinh luật từ các tập mục thường xuyên thoả ngưỡng tin cậy tối thiểu; (3) Xây dựng các độ đo biến thiên hàm ý 𝑖𝑚𝑝 và dùng chúng để lọc các luật mạnh có mức độ hàm ý cao đáp ứng yêu cầu bài toán tư vấn; (4) trích lọc các mặt đẳng trị hàm ý theo ngưỡng biến thiên 𝜃 cho việc tư vấn. 𝑛 𝐴 ≤ 𝑛, 𝑛 𝐵 ≤ 𝑛, 𝑛 𝐵 ≤ 𝑛, max(0, 𝑛 𝐴 + 𝑛 𝐵 − 𝑛) | (𝑛, 𝑛 𝐴 , 𝑛 𝐵 , 𝑛 𝐴𝐵 ), ̅ ≤ 𝑛 𝐴𝐵 ≤ min(𝑛 𝐴 , 𝑛 𝐵 ) ̅ độ ℎỗ 𝑡𝑟ợ 𝑐 (𝑠𝑢𝑝𝑝𝑜𝑟𝑡 ≥ 𝑚𝑖𝑛𝑠𝑢𝑝, 𝐹ℛ 𝐴𝑆𝑆 = | 𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒 ≥ 𝑚𝑖𝑛𝑐𝑜𝑛𝑓) (2.4) độ 𝑡𝑖𝑛 𝑐ậ𝑦 𝑠 𝑆𝐼𝐴𝑚𝑒𝑎𝑠𝑢𝑟𝑒 𝑖𝑚𝑝 𝑙𝑒𝑛𝑔ℎ𝑡ℛ 𝐴𝑆𝑆 ≤ 𝑘 | |𝑟ℎ𝑠 |=1 ℛ 𝐴𝑆𝑆 { 𝑖𝑚𝑝 ℜ 𝑆𝐼𝐴𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑 } 2.1.4. Mô hình tư vấn đề xuất
  14. 12 Mô hình tổng quát khai thác luật được mô tả như trong Hình 2.2, theo đó khung khai thác 𝐹ℛ 𝐴𝑆𝑆 được dùng làm nền tảng cho việc xây dựng mô hình hình tư vấn dựa trên biến thiên hàm ý theo người dùng và theo mục, bên cạnh đó các mô hình khuyến nghị lọc cộng tác khác cũng được tích hợp để đánh giá và so sánh với mô hình đề xuất, theo một quy trình đánh giá như được mô tả trong đoạn kế tiếp. Hình 2.2 Mô hình hệ tư vấn lọc cộng tác dựa biến thiên hàm ý 2.1.5. Đánh giá mô hình đề xuất Mô hình tư vấn được đánh giá theo quy trình như Hình 2.3. Tập dữ liệu Các độ đo đánh giá Tập huấn luyện Tập kiểm thử Mô hình đánh giá Kết quả đánh giá Mô hình Thuật toán khuyến nghị Kết quả tư vấn khuyến nghị Hình 2.3 quy trình đánh giá mô hình hệ tư vấn
  15. 13 Phương pháp dược dùng là đánh giá chéo k-fold có lặp lại với 𝑘 = 5 có số lần lập lại là 𝑡 = 2, dữ liệu được chia làm các tập huấn luyện và tập kiểm thử theo số lượng các giao dịch trong tập dữ liệu. Hình 2.4 Lưu đồ thuật toán đánh giá hệ tư vấn Thủ tục đánh giá được mô tả trong lưu đồ ở Hình 2.4, theo đó các độ đo đánh giá được sử dụng bao gồm hai nhóm độ đo (1) tính chính xác của dự đoán (MAE, MSE và RMSE) và (2) tính chính xác phân lớp của các mục được khuyến nghị (Precision, recall, và F1). 2.2. Mô hình hệ tư vấn dựa trên trường hàm ý thống kê 2.2.1. Các vấn đề về hệ tư vấn dựa trên phân tích hàm ý thống kê Các mô hình tư vấn dựa trên phân tích hàm ý thống kê hiện có, kể cả mô hình tư vấn khai thác luật kết hợp sử dụng biến thiên hàm ý thống kê, đang góp phần làm phong phú thêm các nghiên cứu giải pháp để cải thiện hiệu quả của hệ tư vấn lọc cộng tác. Tuy nhiên chúng còn một số hạn chế cần khắc phục như (1) Chỉ xử lý trên dữ liệu nhị phân, dẫn đến một vấn đề cần giải quyết là sự bùng nổ tổ hợp và mất mát thông tin do quá trình nhị phân hoá dữ liệu phi nhị phân; (2) Đối với các mô hình dựa trên khai thác luật của các công trình này, độ đo hàm ý đều được đề xuất trong giai đoạn hậu xử lý của nhiệm vụ khai thác luật, vì vậy chúng
  16. 14 không đóng góp đáng kể để hạn chế sự bùng nổ tổ hợp của luật kết quả trong bộ dữ liệu lớn, cần thời gian xử lý và không gian lưu trử lớn. Để khắc phục các hạn chế này, mô hình tư vấn dựa trên trường hàm ý thống kê được đề xuất dựa trên sự phát triển, cải thiện mô hình tư vấn dựa trên khai thác luật kết hợp sử dụng biến thiên hàm ý. 2.2.2. Luật hàm ý và khung khai thác luật hàm ý Mô hình tư vấn dựa trên trường hàm ý thống kê đã mở rộng khung khai thác luật kết hợp thành khung khai thác luật hàm ý. 2.2.2.1 Mô hình hoá luật hàm ý định lượng Để giải quyết giới hạn của khung khai thác luật kết hợp trên dữ liệu phi nhị phân, khái luật hàm ý định lượng (sau đây gọi là luật hàm ý) được xây dựng dựa trên các tập mục thường xuyên thoả mãn cả độ tin cậy và độ đo biến thiên hàm ý trong quá trình sinh luật, điều này giúp giải quyết các bài toán trên dữ liệu phi nhị phân và góp phần hiệu quả trong quá trình hạn chế sự bùng nỗ tổ hợp khi sinh luật. Cũng giống như luật kết hợp, luật hàm ý cũng được mô hình hoá như công thức (2.5): 0≤ 𝑛𝐴 ≤ 𝑛𝐵 ≤ 𝑛, 0 ≤ 𝑛 𝐴𝐵 ≤ 𝑛 𝐵 ̅ | 𝑙𝑒𝑛𝑔ℎ𝑡ℛ 𝐼𝑀𝑃 ≤ 𝑘 ℛ 𝐼𝑀𝑃 = (𝑛, 𝑛 𝐴 , 𝑛 𝐵 , 𝑛 𝐴𝐵 ) ̅ |𝑟ℎ𝑠ℛ 𝐼𝑀𝑃 | = 1 (2.5) (𝑠𝑢𝑝𝑝𝑜𝑟𝑡 ≥ 𝑚𝑖𝑛𝑠𝑢𝑝𝑝, | 𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒 ≥ 𝑚𝑖𝑛𝑐𝑜𝑛𝑓 { 𝑆𝐼𝐴 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 𝑖𝑚𝑝 ℜ 𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑)} Với ℜ được xác định theo công thức (2.6) 𝜕𝑞(𝑎, ̅ ) 𝑏 "≤", nếu imp 𝜖 { | 𝜉 ∈ (𝑛, 𝑛 𝐴 , 𝑛 𝐵 , 𝑛 𝐴𝐵 )} ̅ 𝜕𝜉 ℜ={ (2.6) 𝜕𝜑(𝑎, 𝑏) ≥, nếu imp 𝜖 { | 𝜉 ∈ (𝑛, 𝑛 𝐴 , 𝑛 𝐵 , 𝑛 𝐴𝐵 )} ̅ 𝜕𝜉 2.2.2.2 Mô hình hoá khung khai thác luật hàm ý Luật hàm ý được khai thác bởi khung khai thác luật hàm ý được phát triển từ khung khai thác luật kế hợp như trình bày trong Hình 2.5 và được mô hình hoá theo công thức (2.7).
  17. 15 Hình 2.5 Lưu đồ thuật toán khung khai thác luật hàm ý 𝐹 𝑅 𝐼𝑀𝑃 𝐼𝑅𝑀 𝑎𝑙𝑔𝑜𝑟𝑖𝑡ℎ𝑚𝑠 0 ≤ 𝑛𝐴 ≤ 𝑛 𝐵 ≤ 𝑛 (2.7) = {( 𝑠𝑢𝑝𝑝𝑜𝑟𝑡 𝑠, 𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒 𝑐,) | 0 ≤ 𝑛 𝐴𝐵 ≤ 𝑛 𝐴 ̅ } 𝑆𝐼𝐴 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 𝑠 𝑚𝑖𝑛 ≤ 𝑠, 𝑐 𝑚𝑖𝑛 ≤ 𝑐, 𝑖𝑚𝑝 𝑚𝑖𝑛 ℜ 𝑖𝑚𝑝 Khung khai thác luật hàm ý hoạt động theo các bước (1) Dùng thuật toán apriori để sinh các tập mục thường xuyên thoả ngưỡng độ hỗ trợ 𝑠𝑢𝑝𝑝𝑜𝑟𝑡 từ ma trận 𝑅 𝑈𝐼 được chuyễn dạng từ tập dữ liệu 𝐷 bước này thừa kế thuật toán (2) Xây dựng các độ đo biến thiên hàm ý 𝑖𝑚𝑝 và tích hợp vào khung khai thác luật để sinh luật hàm ý từ các tập mục thường xuyên thoả ngưỡng tin cậy tối thiểu và thoả mãn độ đo biến thiên hàm ý; (3) xây dựng và trích lọc các mặt đẳng trị hàm ý theo ngưỡng biến thiên 𝜃 cho việc tư vấn. 2.2.3. Mô hình đề xuất Mô hình tư vấn dựa trên trường hàm ý thống kê được đề xuất như trong Hình 2.6.
  18. 16 Hình 2.6 Mô hình tư vấn dựa trên Trường hàm ý Mô hình này phát triển từ mô hình tư vấn dựa trên khai thác luật kết hợp sử dụng biến thiên hàm ý thông qua các phát triển bổ sung như sau (1) khung khai thác luật hàm ý phát triển từ khung khai thác luật kết hợp để sinh luật hàm ý từ các tập dữ liệu nhị phân lẫn phi phị phân; (2) bổ sung thêm một tiếp cận phân hoạch dữ liệu trong việc xây dựng, huấn luyện và đánh giá mô hình tư vấn dựa trên số mục được đánh giá trên từng giao dịch của tập dữ liệu để cải thiện khả năng huấn luyện mô hình và làm cho mô hình có kết quả tốt hơn; (3) Thuật toán đánh giá hệ tư vấn có bổ sung thêm nhóm độ đo đánh giá dựa trên xếp hạng vị trí mục đề xuất (bao gồm độ đo 𝑛𝐷𝐶𝐺 và 𝑅𝑎𝑛𝑘𝑆𝑐𝑜𝑟𝑒) để việc đánh giá phản ánh sâu sắc hơn hiệu quả của mô hình tư vấn. 2.2.3. Đánh giá mô hình đề xuất Quy trình đánh giá mô hình tư vấn vẫn giống như ở mô hình tư vấn dựa trên khai thác luật kết hợp sử dụng biến thiên hàm ý, cũng sử dụng phương pháp đánh giá chéo k-fold lập lại 2 lần nhưng có hai bổ sung quan trọng như sau Ngoài phương pháp phân hoạch dữ liệu quan sát thành các tập huấn luyện và tập kiểm thử theo số lượng giao dịch trong tập dữ liệu thì mô
  19. 17 hình còn được bổ sung phương pháp phân hoạch theo số lượng mục đánh giá trên từng giao dịch để khắc phục “điểm nghẻn” trong việc xác định số mục biết trước đối với các dữ liệu quá thưa thớt trong các bài toán tư vấn, điều này giúp tăng hiệu quả huấn luyện mô hình, làm cho chất lượng khuyến nghị tốt hơn. Hình 2.7 Lưu đồ thuật toán đánh giá hệ tư vấn được đề xuất Điểm bổ sung thứ hai là nhóm các độ đo đánh giá vị trí xếp hạng các mục trong danh sách khuyến nghị của mô hình tư vấn, như trình bày trong thuật toán đánh giá mô hình ở Hình 2.7. Các độ đo này bao gồm nDCG và Rankscore. 2.3. Kết luận chương Chương này đề xuất một hướng tiếp cận mới dựa trên biến thiên hàm ý trong trường hàm ý để khai thác các luật kết hợp trong bài toán tư vấn lọc cộng tác. Đầu tiên, đó là đề xuất mô hình hệ tư vấn lọc cộng tác dựa trên độ biến thiên hàm ý để giải quyết các vấn đề hiện nay của việc khai thác luật kết hợp phục vụ cho mô hình hệ tư vấn. Mô hình này giúp cải thiện hiệu quả hệ thống khai thác luật phục vụ cho hệ tư vấn so với đa số mô hình hệ tư vấn dựa trên lọc cộng tác. Mặc dù vậy, nó vẫn còn một số điểm yếu cần cải thiện và chính điều này dẫn đến việc đề xuất mô hình tư vấn dựa trên trường hàm ý thông qua việc phát triển và khắc phục những điểm yếu cuả mô hình đề xuất ban đầu.
  20. 18 CHƯƠNG 3. THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 3.1. Dữ liệu thực nghiệm Để đánh giá các mô hình tư vấn dựa trên khai thác luật sử dụng biến thiên hàm ý và mô hình tư vấn dựa trên trường hàm ý đã đề xuất trong Chương 2, chúng được thực nghiệm trên các tập dữ liệu nhị phân là MSWeb1 và tập dữ liệu định lượng là MovieLens 100k2. 3.2. Công cụ thực nghiệm Các thực nghiệm được thực hiện trên các công cụ 𝑖𝑚𝑝𝑙𝑖𝑐𝑎𝑡𝑖𝑜𝑛𝑓𝑖𝑒𝑙𝑑𝑅𝑆 được phát triển bằng ngôn ngữ R có kế thừa các gói công cụ RecommenderLab3 cho việc xây dựng và đánh giá các mô hình hệ tư vấn và gói công cụ Rchic4 để xử lý thông tin hàm ý thống kê. 3.3. Thực nghiệm mô hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý 3.3.1. Mô hình lọc cộng tác dựa trên biến thiên hàm ý theo mục Mô hình được thực nghiệm trên tập dữ liệu Movielens với ngưỡng nhị phân hoá là 3 (gán 0 cho đánh giá phim nhỏ hơn 3, gán 1 nếu khác). Mô hình được đánh giá, so sánh ngoại tuyến với các mô hình tư vấn lọc cộng tác trên hai nhóm độ đo đánh giá là tính chính xác dự đoán (MAE, MSE và RMSE);và tính chính xác phân loại khuyến nghị (Precision, recall, và F1) theo các kịch bản thực nghiệm sau. Kịch bản 1: Khảo sát và tư vấn dựa trên mặt đẳng trị biến thiên hàm ý. Mô hình đã tạo được một trường hàm ý bao gồm tập của các mặt đẳng trị hàm ý có thứ tự của các luật kết hợp hàm ý. Điều này giúp cho việc tư vấn cho người dùng những mục dữ liệu có mức độ hàm ý phù hợp nhất. Một người dùng mục tiêu sẽ được khuyến nghị bộ phim hoặc danh sách các phim mà người ấy sẽ thích theo các nội dung luật tương ứng 1 https://kdd.ics.uci.edu/databases/msweb/msweb.html 2 https://grouplens.org/datasets/movielens/100k/ 3 https://cran.r-project.org/web/packages/recommenderlab/ index.html 4 https://members.femto-st.fr/raphael-couturier/en/rchic
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2