Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Xây dựng hệ khuyến nghị về sản phẩm vay cho khách hàng ở công ty tài chính
lượt xem 8
download
Đề án "Xây dựng hệ khuyến nghị về sản phẩm vay cho khách hàng ở công ty tài chính" được thực hiện với mục tiêu nhằm khuyến nghị được sản phẩm vay theo từng khách hàng/ từng phân khúc khách hàng; đánh giá được khách hàng có nhu cầu vay; nâng cao hiệu suất bán hàng của công ty;... Mời các bạn cùng tham khảo!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Xây dựng hệ khuyến nghị về sản phẩm vay cho khách hàng ở công ty tài chính
- HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG --------------------------------------- Phạm Ngọc Nam XÂY DỰNG HỆ KHUYẾN NGHỊ VỀ SẢN PHẨM VAY CHO KHÁCH HÀNG Ở CÔNG TY TÀI CHÍNH CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8.48.01.04 (Hệ thống thông tin) ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. TÂN HẠNH THÀNH PHỐ HỒ CHÍ MINH – NĂM 2023
- i LỜI CAM ĐOAN Tôi cam đoan đề án “Xây dựng hệ khuyến nghị về sản phẩm vay cho khách hàng của công ty tài chính” là công trình nghiên cứu của riêng tôi. Trong toàn bộ nội dung của đề án, những điều đã được trình bày hoặc là của chính cá nhân tôi nghiên cứu hoặc là được tham khảo từ nhiều nguồn tài liệu khác nhau. Tất cả các nguồn tài liệu tham khảo đều có ghi trích dẫn. Tôi xin chịu trách nhiệm và chịu các hình thức kỷ luật theo quy định hiện hành của Học viện cho lời cam đoan này. Tp. HCM, ngày 12 tháng 10 năm 2023 Học viên thực hiện đề án Phạm Ngọc Nam
- ii LỜI CÁM ƠN Đầu tiên, tôi xin gửi lời cảm ơn chân thành và sâu sắc tới TS. Tân Hạnh, người đã hướng dẫn, dìu dắt và chỉ bảo tận tình cho tôi trong suốt thời gian nghiên cứu đề án tốt nghiệp. Tôi xin dành những lời cảm ơn chân thành tới các thầy cô trong Ban giám đốc, phòng đào tạo sau Đại học – Học viện Công nghệ Bưu chính Viễn Thông đã tạo mọi điều kiện thuận lợi cho tôi hoàn thành đề án tốt nghiệp. Tôi cũng xin chân thành cảm ơn đến gia đình, bạn bè và đồng nghiệp trong cơ quan đã động viên, hỗ trợ tôi trong lúc khó khăn để tôi có thể học tập và hoàn thành đề án. Mặc dù đã rất cố gắng, nỗ lực, nhưng do thời gian và kinh nghiệm nghiên cứu khoa học còn hạn chế, nên không thể tránh khỏi sai xót, tôi rất mong nhận được sự góp ý quý báu của quý Thầy cô cùng bạn bè đồng nghiệp để kiến thức của tôi ngày càng hoàn thiện. Xin chân thành cảm ơn! Tp. HCM, ngày 12 tháng 10 năm 2023 Học viên thực hiện đề án Phạm Ngọc Nam
- iii MỤC LỤC MỞ ĐẦU .......................................................................................................... 1 1. Lý do chọn đề tài ..................................................................................... 1 2. Tổng quan về vấn đề nghiên cứu ............................................................. 2 3. Mục tiêu nghiên cứu ................................................................................ 2 4. Đối tượng và phạm vi nghiên cứu ........................................................... 2 5. Phương pháp nghiên cứu ......................................................................... 3 CHƯƠNG 1: TỔNG QUAN HỆ KHUYẾN NGHỊ ..................................... 4 1.1. Hệ khuyến nghị là gì............................................................................. 4 1.2. Phương thức hoạt động của hệ khuyến nghị ........................................ 7 1.2.1. Hướng tiệp cận dựa trên lọc nội dung ............................................ 7 1.2.2. Hướng tiếp cận dựa trên lọc cộng tác ............................................ 8 CHƯƠNG 2: PHÂN LOẠI HỆ KHUYẾN NGHỊ ..................................... 10 2.1. Phân loại hệ khuyến nghị ................................................................... 10 2.1.1 Lọc nội dung................................................................................. 10 2.1.2 Lọc cộng tác ................................................................................. 12 2.1.3 Lọc kết hợp/ Lai ghép (Hybrid) ................................................... 14 2.2. Đánh giá hiệu quả của hệ khuyến nghị............................................... 15 CHƯƠNG 3: XÂY DỰNG HỆ KHUYẾN NGHỊ VỀ SẢN PHẨM VAY CHO KHÁCH HÀNG CỦA CÔNG TY TÀI CHÍNH CỔ PHẦN TÍN VIỆT ............................................................................................................... 19 3.1. Khảo sát nhu cầu ở các công ty tài chính - ngân hàng ....................... 19 3.1.1. Trên thị trường tài chính - ngân hàng .......................................... 19 3.1.2. Tại công ty tài chính cổ phần Tín Việt [23] ................................. 19 3.2. Thu thập dữ liệu .................................................................................. 21 3.2.1. Dữ liệu sản phẩm.......................................................................... 21 3.2.2. Dữ liệu khách hàng ...................................................................... 22 3.2.3. Dữ liệu xếp hạng sản phẩm .......................................................... 23
- iv 3.2.4. Tập dữ liệu Test đã gán nhãn ....................................................... 24 3.2.5. Thống kê và khảo sát dữ liệu ....................................................... 25 3.3. Xây dựng mô hình lọc cho hệ khuyến nghị........................................ 26 3.3.1. Phát biểu bài toán khuyến nghị .................................................... 26 3.3.2. Sử dụng phương pháp lọc nội dung ............................................. 27 3.3.3. Sử dụng phương pháp lọc cộng tác .............................................. 30 3.4. Cài đặt hệ khuyến nghị ....................................................................... 31 3.4.1. Môi trường và các công cụ sử dụng ............................................. 31 3.4.2. Thư viện ....................................................................................... 31 3.4.3. Cài đặt........................................................................................... 33 3.5. Các số liệu đánh giá hệ khuyến nghị .................................................. 38 3.5.1. Sử dụng hệ số RMSE ................................................................... 38 3.5.2. So sánh với tập dữ liệu Test đã được gán nhãn............................ 39 KẾT LUẬN .................................................................................................... 41 DANH MỤC CÁC TÀI LIỆU THAM KHẢO ........................................... 43
- v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT VIẾT TẮT TIẾNG ANH TIẾNG VIỆT Hệ thống khuyến nghị/ Hệ RS Recommender System khuyến nghị CIC Credit Information Center Trung tâm thông tin tín dụng quốc gia cos cosine Độ đo cosine data sparsity data sparsity Dữ liệu thưa Deep learning Deep learning Các phương pháp học sâu item item Mặt hàng/ sản phẩm/ dịch vụ Overspecialization Overspecialization Tình trạng cứng nhắc của hệ khuyến nghị MAE Mean Absolute Error Sai số tuyệt đối trung bình NHNN Ngân hàng nhà nước RMSE Root Mean Square Error Sai số bình phương trung bình TTTC Thị trường tài chính Utility Matrix/User – Utility Matrix/User – Item Ma trận tương tác người Item matrix matrix dùng – sản phẩm User profile User profile Hồ sơ người dùng
- vi DANH SÁCH BẢNG Bảng 1.1: Ma trận tương tác người dùng – sản phẩm .................................................6 Bảng 3.1: Mô phỏng các giá trị API kết nối với cơ sở dữ liệu CIC ..........................38
- vii DANH SÁCH HÌNH VẼ Hình 1.1: Phương pháp thu thập dữ liệu “tường minh” ..............................................5 Hình 1.2: Phương pháp thu thập dữ liệu “ngầm định”................................................6 Hình 1.3: Hình minh họa hướng tiếp cận dựa trên nội dung ......................................7 Hình 1.4: Ví dụ hướng tiếp cận lọc cộng tác dựa trên người dùng .............................9 Hình 1.5: Ví dụ hướng tiếp cận lọc cộng tác dựa trên sản phẩm ................................9 Hình 2.1: Cách thức hoạt động của lọc nội dung ......................................................10 Hình 2.2: Cơ chế hoạt động lọc theo nội dung .........................................................11 Hình 2.3: Cơ chế lọc kết hợp ....................................................................................15 Hình 3.1: Danh mục Sản phẩm thu thập ...................................................................22 Hình 3.2: Danh sách khách hàng...............................................................................23 Hình 3.3: Bảng xếp hạng dữ liệu khách hàng đánh giá sản phẩm ............................23 Hình 3.4: Dữ liệu Test đã gán nhãn ..........................................................................24 Hình 3.5: Phân phối điểm trung bình của từng sản phẩm vay ..................................25 Hình 3.6: Số lượng khách hàng theo từng nhóm sản phẩm vay ...............................26 Hình 3.7: Mô hình hai tòa tháp .................................................................................28 Hình 3.8: Cấu trúc bên trong của mô hình hai tòa tháp là mạng nơ-ron...................29 Hình 3.9: Kiến trúc mô hình hai tòa tháp ..................................................................30 Hình 3.10: Độ tương quan của các đặc tính trong sản phẩm ....................................34 Hình 3.11: Phân chia dữ liệu .....................................................................................34 Hình 3.12: Mô hình huấn luyện ................................................................................35 Hình 3.13: Quá trình huấn luyện mô hình ................................................................36 Hình 3.14: Áp dụng mô hình đã huấn luyện vào tập dữ liệu test..............................36 Hình 3.15: Gợi ý sản phẩm .......................................................................................36 Hình 3.16: Ma trận Người dùng – sản phẩm.............................................................37 Hình 3.17: Khuyến nghị sản phẩm cho khách hàng .................................................37 Hình 3.18: Kết quả RMSE trên tập dữ liệu Test .......................................................38 Hình 3.19: Mô phỏng kết quả kiểm tra với dữ liệu đã được gán nhãn .....................39 Hình 3.20: Thống kê kết quả so sánh với tập dữ liệu mẫu........................................40
- 1 MỞ ĐẦU 1. Lý do chọn đề tài Ngày nay với sự bùng nổ của ngành công nghệ thông tin đã mang lại nhiều lợi ích cho sự phát triển của nền kinh tế. Một trong những thành tựu của ứng dụng công nghệ thông tin mà chúng ta không thể không nhắc đến là ngành thương mại điện tử. Sự ra đời và phát triển mạnh mẽ của lĩnh vực này đã kéo theo nhiều loại hình kinh doanh mới được hình thành, trong đó có lĩnh vực “mua bán hàng trựcctuyến”. Với loại hình này, khách hàng có thể tiếp cận với các loại hàng hóa, dịch vụ một cách dễ dàng và nhanh chóng hơn rất nhiều sonvới các loại hình mua bán truyền thống. Tuy nhiên, hiện nay là có quá nhiều sản phẩm, dịch vụ tràn lan trên môi trường internet đã làm cho khách hàng dè dặt, bối rối khi lựa chọn một sản phẩm hay một dịch vụ nào đó. Chính vì vậy, để khách hànggcó thể lựa chọn được một sản phẩm, dịch vụ ưng ý thì việc cung cấp các thông tin tư vấn là sự hỗ trợ rất quan trọng và cần thiết. Đây cũng chính là điểm lợi thế trong phương thức bán hàng truyền thống. Do đó, để tối ưu hóa lợi thế cạnh tranh của phương thức bán hàng trực tuyến, một hệ thống khuyến nghị được cài đặt và tích hợp vào hệ thống bán hàng trực tuyến nhằm hỗ trợ và gợi ý cho khách hàng sẽ giúp nâng cao hiệu suất bán hàng. Hệ thống này đóng vai trò là “cầu nối” giúp hỗ trợ khách hàng tìm kiếm sản phẩm/ dịch vụ, và đưa ra các quyết định mua hàng nhanh gọn và đúng đắn. Trong thực tế, các hệ thống khuyến nghị đang được các doanh nghiệp triển khai, từ Amazon đến Netflix, Google đến Goodreads, hệ khuyến nghị là một trong những ứng dụng được sử dụng rộng rãi nhất của kỹ thuật học máy. Sau giai đoạn đại dịch Covid 19, tình hình kinh tế khó khăn, có rất nhiều khách hàng tìm đến các công ty tài chính, ngân hàng để tìm kiếm những khoản vay nhằm mục đích chi tiêu trong cuộc sống hoặc sử dụng khoản vay đó để đầu tư kinh doanh. Tuy nhiên, trong bối cảnh quá nhiều ngân hàng và các công ty tài chính có các sản phẩm trên thị trường, cùng với đó là những ứng dụng vay tài chính “lậu” có mặt tràn lan trên app store/ CH play khiến khách hàng phân vân, bối rối. Để cạnh tranh và phục vụ đúng nhu cầu của khách hàng đòi hỏi bản thân tổ chức cần có những công cụ để gợi ý sản phẩm phù hợp cho khách hàng, đồng thời giúp cho tổ chức tài chính,
- 2 ngân hàng cho có thêm công cụ để sàng lọc khách hàng, giảm thiểu rủi ro gian lận cũng như phục cho công tác thẩm định hồ sơ khách hàng. Bản thân là người đang làm trong hệ thống tài chính, ngân hàng, tôi hiểu được sự cần thiết của công cụ gợi ý sản phẩm cho khách hàng. Với ý tưởng trên, và nhận được sự đồng ý của TS. Tân Hạnh, tôi chọn đề tài đề án “Xây dựng hệ khuyến nghị về sản phẩm vay cho khách hàng của công ty tài chính”, khi đề tài hoàn thành sẽ góp phần giải quyết các vấn đề cấp bách trong thực tế tại công ty tài chính cổ phần Tín Việt, nơi mà tôi đang công tác. 2. Tổng quan về vấn đề nghiên cứu Đề tài hướng đến xây dựng và áp dụng có hiệu quả công cụ gợi ý sản phẩm vay cho khách hàng tìm đến các công ty tài chính để yêu cầu một khoản vay. Để thực hiện được mục tiêu ý tưởng đề ra, đề tài cần phải nghiên cứu và tiến hành các nội dung sau: - Tìm hiểu và phân tích các nhu cầu, hành vi của khách hàng. - Nghiên cứu từ cơ sở lý thuyết về thu thập dữ liệu, phân tích dữ liệu, mô hình lọc dữ liệu, hệ số ma trận. Từ đó áp dụng làm nền tảng để xây dựng hệ khuyến nghị. 3. Mục tiêu nghiên cứu - Mục tiêu chính: xây dựng hệ khuyến nghị về sản phẩm vay cho khách hàng của các công ty tài chính. - Mục tiêu cụ thể: • Khuyến nghị được sản phẩm vay theo từng khách hàng/ từng phân khúc khách hàng. • Đánh giá được khách hàng có nhu cầu vay. • Nâng cao hiệu suất bán hàng của công ty. 4. Đối tượng và phạm vi nghiên cứu a. Đối tượng - Mô hình khuyến nghị. - Các phương pháp học sâu (deep learning).
- 3 - Hành vi khách hàng của công ty. - Phân tích dữ liệu của công ty. b. Phạm vi - Tập khách hàng của công ty. - Tập sản phẩm vay của công ty. - Các mô hình lọc dữ liệu. - Nghiên cứu về hệ số ma trận. - Ngôn ngữ lập trình python. 5. Phương pháp nghiên cứu - Phương pháp thu thập. - Phương pháp lưu trữ dữ liệu. - Các phương pháp lọc dữ liệu. - Phương pháp phân tích dữ liệu.
- 4 CHƯƠNG 1: TỔNG QUAN HỆ KHUYẾN NGHỊ 1.1. Hệ khuyến nghị là gì Trong thực tế, khi lựa chọn sản phẩm hàng hóa, dịch vụ nào đó, người dùng thường có xu hướng lựa chọn những sản phẩm/ dịch vụ do bạn bènhoặc những người thân giới thiệu. Đây từng là phương thức mua hàng chính khi có bất kỳ nghi ngờ nào về sản phẩm. Nhưng trong thời đại công nghệ hiện nay, với sự xuất hiện của thương mại điện tử, vòng kết nối đã mở rộng hơn bao gồm các trang web trực tuyến sử dụng một số loại công cụ đề xuất để gợi ý sản phẩm/ dịch vụ cho khách hàng. "Hệ khuyến nghị” [19] là hệ thống sử dụng các thuật toán hoặc các công cụ phần mềm xử lý, phân tích dữ liệu người dùng và sảnnphẩm, từ đó đưa ra các dự đoán, đề xuất phù hợp với sở thích của người dùng tại thời điểm bất kỳ trên các ứng dụng và nền tảng trực tuyến giúp tiết kiệm thời gian tìm kiếm, truy cập nội dung dễ dàng. Các hệ khuyến nghị lọc dữ liệu bằng các thuật toán khác nhau và đề xuất các mục phù hợp nhất cho người dùng. Đầu tiên, nó nắm bắt hành vi trong quá khứ của khách hàng và dựa trên đó, đề xuất các sản phẩm mà người dùng có thể sẽ mua. Nếu một người dùng hoàn toàn mới truy cập một trang web thương mại điện tử, thì trang web đó sẽ không có bất kỳ lịch sử nào trong quá khứ của người dùng đó. Vậy làm thế nào để trang web giới thiệu sản phẩm cho người dùng trong một tình huống như vậy? Một giải pháp khả thi là giới thiệu những sản phẩm bán chạy nhất, tức là những sảnnphẩm có nhu cầu cao. Một giải pháp khả thi khác có thể là giới thiệu các sảnnphẩm mang lại lợi nhuận tối đa cho doanh nghiệp. Nếu chúng ta có thể giới thiệu một vài mặt hàng cho khách hàng dựa trên nhu cầu và sở thích của họ, điều đó sẽ tạo ra tác động tích cực đến trảinnghiệm người dùng và dẫn đến việc họ ghé thăm thường xuyên. Do đó, các doanh nghiệp ngày nay đang xây dựng các công cụ đề xuất thôngnminh bằng cách nghiên cứu hành vi trong quá khứ của người dùng. “Mặt hàng (item)” [19] là khái niệm chung nhằm ám chỉ những gì mà hệ thống đề xuất với người dùng. Hệ khuyến nghị chủ yếu hướng đến những người dùng thiếu
- 5 kinh nghiệm hoặc thẩm quyền để đánh giá tiềm năng của một số mặt hàng mà họ có nhu cầu. Hiện nay, dữ liệu có thể được thu thập bằng hai cách: tường minh và ngầm định (explicitly and implicitly). Phương pháp tường minh là phương pháp thông tin được cung cấp có chủ ý, tức là thông tin đầu vào từ người dùng, chẳng hạn như dữ liệu xếp hạng các bộ phim, xếp hạng các bài hát,…. “Phương pháp này cung cấp dữ liệu người dùng trực tiếp cho hệ thống khuyến nghịn(không thực hiện các công đoạn biến đổi trung gian để ra kết quả) và kết quả khuyến nghị được đánh giá là đáng tin cậy hơn cả” [6]. Dữ liệu thu thập của phương pháp này dựa trên dữ liệu người dùng đánh giá nên phương pháp này được cho đáng tin cậy, tuy nhiên điểm hạn chế phương pháp này là yêu cầu người dùng phải thực hiện nhiều thao tác với hệ thống, không phải người dùng nào cũng sẵn sàng bỏ thời gian ra đánh giá sản phẩm/ dịch vụ, điều này vô tình làm giảm trải nghiệm ngườindùng. Trong quá trình áp dụng thực tế, chúng tôi nhận thấy người dùng có tâm lý chung là không muốn chia sẻ quá nhiều thông tin cá nhân hoặc riêng tư bởi vì đó là những thông nhạy cảm, người dùng sợ bị khai thác thông tin (như là các cuộc gọi tư vấn mua bảo hiểm, đầu tư chứng khoán,…), do đó phương thức tường minh gặp nhiều khó khăn. Nhận“thấy những hạn chế của phương pháp tường minh, đặc biệt là giảm trải nghiệm người dùng, người ta sử dụng phương pháp ngầm định. Ngầm định nghĩa là thông tin không được cung cấp có chủ ý mà được thu thập từ các luồng dữ liệu có sẵn như lịch sử tìm kiếm, số lần nhấp chuột, lịch sử đặt hàng,… từ đó suy luận và dự đoánnthông tin về sở thích của người”dùng. Hình 1.1: Phương pháp thu thập dữ liệu “tường minh”
- 6 Trong hình 1.1, Netflix đang thu thập dữ liệu một cách “tường minh” dưới dạng xếp hạng do người dùng đưa ra cho các bộ phim khác nhau. Hình 1.2: Phương pháp thu thập dữ liệu “ngầm định” Trong hình 1.2, lịch sử đặt hàng của người dùng được Amazon ghi lại, đây là một ví dụ về chế độ thu thập dữ liệu ngầm. “Ma trận tương tác Người dùng – Sản phẩm (Utility Matrix/User – Item matrix)” [16] là một cơ sở dữ liệu biểu diễn sở thích của mỗi người dùng với từng sản phẩm trong hệ thống khuyến nghị. Cơ sở dữ liệu này được mô tả dưới dạng ma trận, trong đó mỗi hàng tươngnứng với một người dùng, mỗi cột tương ứng với một mặt hàng, giá trị tại mỗi ô của ma trận chính là giá trị xếp hạng của người dùng cho sản phẩm đó. Bảng 1.1: Ma trận tương tác người dùng – sản phẩm Thực tế không phải lúc nào người dùng cũng đánh giá tất cả các sản phẩm mà họ đã từng sử dụng, khi bạn là một người dùng, thông thường chỉ đánh giá sản phẩm
- 7 trong trạng thái rất thích hoặc rất ghét, bởi vì nó mang lại ấn tượng lớn cho bạn. Do vậy ma trận tương tác Người dùng – Sản phẩm nói trên thường bị thiếu giá trị ở rất nhiều ô, vấn đề này được gọi là vấn đề “dữ liệu thưa” (data sparsity) [5]. 1.2. Phương thức hoạt động của hệ khuyến nghị Trong quá trình khảo sát, chúng tôi nhận thấy khi khách hàng muốn mua một món hàng/ sản phẩm/ dịch vụ nào đó thường sẽ lựa chọn theo hai hướng: - Hướng“thứ nhất là xem xét những thông tin chi tiết về sản phẩm như thành phần, tính năng, đặc tính,… tùy thuộc vào mức độ”phù hợp với nhu cầu sử dụng của bản thân người đó để đưa ra quyết định. - Hướng thứ hai là họ có thể tham khảo ý kiến của những người xung quanh (có thể là người thân, bạn bè, đồng nghiệp, hoặc những lượt bình luận, chấm điểm sản phẩm đó,…) về mức độ hài lòng đối với sản phẩm để đưa ra quyết định của mình. Dựa vào“những khảo sát nêu trên, hệ khuyến nghị biểu diễn lại quá trình ra quyết định mua hàng của khách hàng theo hai cách tiếp cận chính là khuyến nghị dựa trên lọc theo nội dung (hướng thứ nhất) và khuyến nghị dựa trênnlọc theo”cộng tác (hướng thứ hai). 1.2.1. Hướng tiệp cận dựa trên lọc nội dung Hướng tiếp cận dựa trên lọc nội dung [21] gợi ý các sản phẩm tương tự với những sản phẩm mà người dùng đã tương tác trước đây. Hình 1.3: Hình minh họa hướng tiếp cận dựa trên nội dung
- 8 Tất cả các thông tin liên quan đến người dùng sẽ được lưu dưới dạng Véc-tơ. Véc-tơ này chứa các hành vi trong quá khứ của người dùng, tức là các các sản phẩm được người dùng thích/ không thích và xếp hạng do họ đưa ra. Véc-tơ này được gọi là véc-tơ Profile. Tất cả thông tin liên quan đến sản phẩm được lưu trữ trong một véc- tơ khác gọi là véc-tơ Item. Thuật toán lọc dựa trên nội dung sẽ tìm cosin của góc giữa véc-tơ Profile và véc-tơ Item, tức là độ tương tự cosin. Giả sử A là véc-tơ Profile và B là véc-tơ Item, thì độ tương tự giữa chúng được tính như sau: ⃗ 𝐵 𝑠𝑖𝑚( 𝐴, 𝐵) = cos(𝐴, ⃗⃗) Dựa trên giá trị cosine nằm trong khoảng từ -1 đến 1, các sản phẩm được sắp xếp theo thứ tự giảm dần và một trong hai phương pháp dưới đây được sử dụng cho các các hệ khuyến nghị: - Cách tiếp cận top-n : trong đó n sản phẩm hàng đầu được đề xuất (Ở đây n có thể do doanh nghiệp quyết định). - Cách tiếp cận theo thang xếp hạng: chúng ta có thể đặt một ngưỡng nhất định và tất cả các sản phẩm trên ngưỡng đó đều được đề xuất. 1.2.2. Hướng tiếp cận dựa trên lọc cộng tác Hướng tiếp cận này sử dụng “Hành vi người dùng” để đề xuất các sản phẩm. Đây là một trong những hướng tiếp cận được sử dụng phổ biến nhất ngày nay vì nó không phụ thuộc vào bất kỳ thông tin bổ sung nào. Có hai hướng tiếp cận phổ biến dựa trên lọc cộng tác: hướng tiếp cận lọc cộng tác dựa trên người dùng và hướng tiếp cận lọc cộng tác dựa trên sản phẩm. a. Hướng tiếp cận lọc cộng tác dựa trên người dùng. Hướng tiếp cận này [21] tìm điểm tương đồng giữa những người dùng. Dựa trên điểm tương đồng này, nó sẽ chọn ra những người dùng giống nhau nhất và đề xuất các sản phẩm mà những người dùng tương tự này đã thích hoặc mua trước đó.
- 9 Hình 1.4: Ví dụ hướng tiếp cận lọc cộng tác dựa trên người dùng b. Hướng tiếp cận lọc cộng tác dựa trên sản phẩm. Hướng tiếp cận này [21] tính toán sự giống nhau giữa từng cặp sản phẩm tương đồng, dựa vào đó, chúng sẽ đề xuất những sản phẩm tương tự được người dùng yêu thích trong quá khứ. Hình 1.5: Ví dụ hướng tiếp cận lọc cộng tác dựa trên sản phẩm
- 10 CHƯƠNG 2: PHÂN LOẠI HỆ KHUYẾN NGHỊ 2.1. Phân loại hệ khuyến nghị 2.1.1 Lọc nội dung Hệ khuyến nghị dựa trên lọc nội dung hoạt động với dữ liệu mà người dùng cung cấp bằng phương pháp thu thập dữ liệu tường minh hoặc ngầm định. Dựa trên dữ liệu đó, hồ sơ người dùng được tạo ra, sau đó được sử dụng để đưa ra đề xuất cho người dùng. Khi người dùng cung cấp thêm thông tin đầu vào hoặc thực hiện tương tác đối với hệ thống, hệ khuyến nghị sẽ ngày càng chính xác hơn. Trên cơ sở hướng tiếp cận dựa trên lọc nội dung ở mục 1.2.1, mỗi sản phẩm được lưu trữ dưới dạng một véc-tơ thuộc tính của nó trong không gian n chiều và các góc giữa các véc-tơ được tính toán để xác định độ giống nhau giữa các véc-tơ. Tiếp theo, các véc-tơ hồ sơ người dùng (véc-tơ profile) cũng được tạo dựa trên hành động của người dùng đối với các thuộc tính trước đó của sản phẩm, sự giống nhau giữa sản phẩm và người dùng cũng được xác định theo cách tương tự. Hình 2.1: Cách thức hoạt động của lọc nội dung
- 11 Như hình 2.1, để đánh giá độ mức độ “tương đồng” giữa 2 vector 𝑢 và 𝑣 cho việc đưa ra khuyếnnnghị, hệ thống khuyến nghị so sánh bằng góc lệch cosine giữa 2 vector, chúng ta có thể dựa vào công thức sau: Những sản phẩm tương tự nhau Hình 2.2: Cơ chế hoạt động lọc theo nội dung Những ưu điểm của hệ khuyến nghị dựa trên lọc nội dung: Thứ nhất, hệ khuyến nghị dạng này có thể dễ dàng mở rộng cho một số lượng lớn khách hàng vì không cần dữ liệu của những người dùng khác để đề xuất sản phẩm/ dịch vụ cho một người dùng cụ thể. Thứ hai, vì các gợi ý dựa trên các hoạt động hàng ngày của người dùng nên tất cả các tùy chọn và tham số của các khuyến nghị đều được tinh chỉnh theo lựa chọn của người dùng. Do đó, mô hình có thể đề xuất các mặt hàng/ sản phẩm thích hợp cụ thể mà những người dùng khác có thể không quan tâm. Thứ ba, hệ thống khuyến nghị vẫn có thể được mở rộng dựa trên những sở thích đặc thù của nội dung sảnnphẩm, tức là có khả năng mở rộng ở một số trường hợp cụ thể.
- 12 Thứ tư, các sản phẩm mới nhất có thể được đề xuất ngay khi chúng được khởi tạo mà không cần chờ kiểm tra vì các tính năng này có sẵn ngay từ đầu. Một số nhược điểm của phương pháp khuyếnnnghị dựa trên nội dung [6]: Một là việc xây dựng hệ khuyến nghị dựa trên lọc nội dung đòi hỏi yêu cầu chất lượng thông tin nội dung của sản phẩm phải “đầy đủ”, “chất lượng”, “chính xác”. Do đó những sản phẩm có nội dung đặc thù như phim, ảnh, âm nhạc,… chưa có các phương thức trích xuất thông tin hiệu quả, vì thế xây dựng hệ khuyến nghị bằng phương pháp này có thể sẽ không hiệu quả. Hai là hệ khuyến nghị có thể gợi ý các sản phẩm mới dựa trên mối quan tâm hiện tại của người dùng. Do đó, việc khám phá và mở rộng sang các sản phẩm mới hơn mà người dùng có thể quan tâm là không thể. Ba là hệ khuyến nghị khó có thể đưa ra những gợi ý mới hơn cho những người dùng ít truy cập vào hệ thống. 2.1.2 Lọc cộng tác a. Lọc cộng tác dựa trên Nhật ký (Memory-based Collaborative Filtering) Hệ thống tính toán mức độ tương đồng giữa người dùng hoặc sản phẩm bằng cách sử dụng dữ liệu trước đó của người dùng dựa trên giá trị xếp hạng. Mục tiêu chính của phương pháp này là mô tả mức độ giống nhau giữa người dùng hoặc sản phẩm và khai phá các giá trị xếp hạng tương đồng để gợi ý các sản phẩm phù hợp. Cách thức thực hiện sau như: Bước 1: Hệ thống tính toán mức độ tương tự giữa những người sử dụng dựa vào công thức: Bước 2: Hệ thống tính toán giá trị xếp hạng dự đoán theo công thức:
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Nghiên cứu dữ liệu không gian phát triển trạm BTS 5G
73 p | 18 | 12
-
Đề án tốt nghiệp Thạc sĩ Quản lý Kinh tế: Quản lý vốn nhà nước tại Công ty cổ phần Nước sạch Quảng Ninh
83 p | 17 | 9
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Áp dụng học máy trong các ứng dụng thông minh dựa trên chuỗi khối blockchain
75 p | 17 | 9
-
Đề án tốt nghiệp Thạc sĩ Quản lý Kinh tế: Quản lý hoạt động kiểm tra hàng hóa nhập khẩu của các doanh nghiệp trên địa bàn tỉnh Quảng Ninh
106 p | 16 | 7
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Dự đoán tuổi và giới tính bằng phương pháp học sâu
77 p | 13 | 6
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Nghiên cứu mô hình học sâu để dự báo khách hàng rời mạng viễn thông ở Tây Ninh
71 p | 30 | 5
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Dự báo khách hàng sử dụng dịch vụ FiberVNN của VNPT Tây Ninh có nguy cơ rời mạng
66 p | 14 | 5
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Nghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây Ninh
73 p | 21 | 5
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Xây dựng hệ thống hỏi đáp trực tuyến bằng phương pháp máy học để tự động hóa quy trình tiếp nhận câu hỏi áp dụng cho chính quyền địa phương tỉnh Tây Ninh
88 p | 13 | 5
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Nghiên cứu các thuật toán chuyển tiếp đa chặng sử dụng bề mặt phản xạ thông minh
58 p | 11 | 5
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Hệ thống phân loại và phát hiện phương tiện tham gia giao thông di chuyển sai làn đường trên quốc lộ thuộc tỉnh Tây Ninh bằng camera kỹ thuật số
82 p | 14 | 5
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Nghiên cứu phát triển mô-đun IoT gateway và ứng dụng máy nấu ăn thông minh
83 p | 21 | 5
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Nghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tác
79 p | 25 | 4
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Ứng dụng phương pháp học sâu vào nhận dạng cảm xúc để đánh giá độ hài lòng khách hàng
61 p | 11 | 4
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Thuật toán định tuyến dựa trên logic mờ tích hợp máy học nhằm cải tiến thời gian sống của mạng cảm biến không dây
75 p | 18 | 3
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Nâng cao hiệu năng mạng chuyển tiếp đa chặng bảo mật dạng cụm với các thuật toán chọn đường
75 p | 17 | 3
-
Đề án tốt nghiệp Thạc sĩ Kỹ thuật: Hỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn Thông
73 p | 18 | 3
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn