Ước lượng tương tự quan tâm người dùng trên mạng xã hội dựa vào các nhóm tham gia

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:7

Thêm vào BST

Báo xấu

13
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Phát hiện quan tâm của người dùng trên các mạng xã hội là một trong những chủ đề thu hút nhiều quan tâm nghiên cứu và áp dụng trong nhiều ứng dụng như các hệ tư vấn người dùng, các chiến lược quảng cáo, phân loại người dùng,... Trong bài báo này, chúng tôi đề xuất một mô hình dựa trên phân tích những nhóm tham gia của người dùng trên các mạng xã hội để phát hiện và so sánh tương quan về quan tâm của họ, sau đó, đánh giá bằng thực nghiệm với dữ liệu thực.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Ước lượng tương tự quan tâm người dùng trên mạng xã hội dựa vào các nhóm tham gia

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018 DOI: 10.15625/vap.2018.00072 ƯỚC LƯỢNG TƯƠNG TỰ QUAN TÂM NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI DỰA VÀO CÁC NHÓM THAM GIA Nguyễn Thị Hội1, Trần Đình Quế2 1 Trường Đại học Thương mại 2 Học viện Công nghệ Bưu chính Viễn thông hoint2002@gmai.com, tdque@yahoo.com TÓM TẮT: Phát hiện quan tâm của người dùng trên các mạng xã hội là một trong những chủ đề thu hút nhiều quan tâm nghiên cứu và áp dụng trong nhiều ứng dụng như các hệ tư vấn người dùng, các chiến lược quảng cáo, phân loại người dùng,... Trong bài báo này, chúng tôi đề xuất một mô hình dựa trên phân tích những nhóm tham gia của người dùng trên các mạng xã hội để phát hiện và so sánh tương quan về quan tâm của họ, sau đó, đánh giá bằng thực nghiệm với dữ liệu thực. Kết quả thực nghiệm cho thấy nếu hai người dùng có tham gia nhiều nhóm tương tự nhau thì sẽ có quan tâm tương tự nhau và ngược lại. Từ khóa: Mạng xã hội, nhóm người dùng, quan tâm của người dùng, độ đo tương tự. I. GIỚI THIỆU Theo từ điển Tiếng Việt thì quan tâm là sự chú ý và để tâm một cách thường xuyên đến chủ đề, sự vật, hiện tượng đang xảy ra trong những hoàn cảnh cụ thể. Trên các mạng xã hội (social network sites) các chủ đề quan tâm của người dùng thường rất đa dạng và không dễ dàng để xếp vào một lĩnh vực cụ thể. Người dùng trên mạng xã hội là những người tham gia vào một trang mạng xã hội bất kỳ, có tài khoản trên trang mạng xã hội đó và sử dụng mạng để trao đổi, tương tác với người dùng khác. Người dùng trên mạng xã hội cũng thường quan tâm đến nhiều chủ đề khác nhau, chẳng hạn như một người dùng thường xuyên chia sẻ các bài viết về lịch trình các chuyến du lịch, tham gia vào nhóm giới thiệu về địa điểm du lịch, thường xuyên thích hoặc bình luận hình ảnh các địa điểm, vị trí du lịch,… có thể xem người dùng đó quan tâm đến chủ đề du lịch, hoặc một người dùng thường xuyên chú ý đến các bộ phim bom tấn, tham gia nhóm giới thiệu về phim, thường xuyên chia sẻ các bài viết về các bộ phim, theo dõi lịch chiếu và các sự kiện bên lề của các liên hoan phim,… có thể xem người dùng đó quan tâm đến chủ đề giải trí phim ảnh,… Như vậy, có thể nói rằng, quan tâm của người dùng trên các mạng xã hội là sự để tâm và chú ý thường xuyên đến một hoặc một số chủ đề nào đó trên các mạng xã hội. Hiện nay, với sự lớn mạnh và ảnh hưởng sâu rộng của các mạng xã hội, các nghiên cứu về quan tâm của người dùng trên các mạng xã hội không những được rất nhiều cá nhân, tổ chức chú ý mà chúng còn có rất nhiều ứng dụng trong các dịch vụ trực tuyến như các hệ thống khuyến nghị người dùng, các chiến lược quảng cáo sản phẩm, các chương trình giới thiệu dịch vụ cho người dùng,… Quan tâm của người dùng trên các mạng xã hội là một hướng được rất nhiều nhà nghiên cứu phân tích và đưa ra nhiều cách thức để thu được các kết quả nghiên cứu khác nhau. Theo khảo sát của chúng tôi, có một số cách phát hiện quan tâm người dùng phổ biến dùng trên các phương tiện truyền thông như: trích xuất thông tin từ thông tin cá nhân người dùng (profile) [2, 8, 17]; trích xuất từ các liên kết của người dùng đến các người dùng khác [2, 7, 12]; trích xuất hành vi đánh dấu, các bài đăng của người dùng [9, 10, 12, 13],… Tuy nhiên, các thông tin cá nhân của người dùng trên các mạng xã hội hiện nay rất khó thu thập do yêu cầu bảo mật người dùng hoặc người dùng không muốn cung cấp đầy đủ thông tin. Thêm nữa, các thông tin cá nhân người dùng thường quá ít cũng là một trở ngại trong phân tích và nghiên cứu về quan tâm của người dùng trên các mạng xã hội. Vì vậy, các nghiên cứu về quan tâm của người dùng trên các mạng xã hội những năm gần đây thường đi theo hai hướng tiếp cận chính: một là phân tích về các kết nối, quan hệ bạn bè, những danh sách những người được theo dõi, các đánh dấu của người dùng trên các mạng xã hội như [2, 7, 8]; hai là phân tích các bài đăng (status) và các thuộc tính liên quan đến các bài đăng của người dùng trên các mạng xã hội [7, 9, 11, 12]. Các nghiên cứu này chủ yếu đi sâu vào vấn đề phát hiện quan tâm của từng cá nhân người dùng mà chưa chú ý nghiên cứu nhiều về mối liên quan giữa những người dùng trên các mạng xã hội. Vì vậy, bài báo nhằm đề xuất một cách ước lượng quan tâm tương tự của hai người dùng dựa trên các nhóm cộng đồng mà họ tham gia hoặc theo dõi trên các mạng xã hội. Mục đích chính để trả lời cho câu hỏi: Nếu hai người dùng cùng tham gia một số nhóm cộng đồng tương tự nhau liệu rằng họ có quan tâm các chủ đề tương tự nhau hay không? và ngược lại. Trong bài báo, kỹ thuật N-gram và TF-IDF được sử dụng để phân tích và ước lượng mối tương quan giữa hành vi tham gia nhóm cộng đồng và các chủ đề quan tâm của người dùng, sau đó mô hình đề xuất được đánh giá và so sánh bằng thực nghiệm dựa trên dữ liệu thực. Phần còn lại của bài báo được tổ chức như sau: Phần 2 là đề xuất cách thức ước lượng mối tương quan giữa quan tâm và hành vi của người dùng; Phần 3 là phần thực nghiệm và đánh giá; Phần 4 là kết luận.
Nguyễn Thị Hội, Trần Đình Quế 555 II. TƯƠNG TỰ GIỮA CÁC NHÓM VÀ ƯỚC LƯỢNG QUAN TÂM CỦA NGƯỜI DÙNG 2.1. Độ tương tự các nhóm cộng đồng trên mạng xã hội 2.1.1. Nhóm hay cộng đồng trên mạng xã hội Trong một mạng xã hội, có nhiều người dùng kết nối với nhau theo các kiểu quan hệ gần với các quan hệ thực tế ngoài xã hội, chẳng hạn như quan hệ bạn bè, quan hệ gia đình, quan hệ đồng nghiệp... Trong đó, mỗi người dùng có một không gian cá nhân riêng và người dùng có toàn quyền làm những việc họ muốn, chẳng hạn như đăng các bài viết mô tả trạng thái cá nhân; thích và chia sẻ niềm vui vì hoàn thành công việc hay đạt được một thành tựu nào đó; trích dẫn và chia sẻ lại những bài viết, bài báo, bức ảnh, đoạn phim mà bản thân thấy thú vị và tham gia vào một hoặc một số nhóm cộng đồng (group) trên các mạng xã hội Nhóm cộng đồng hay group là một tính năng được cung cấp bởi rất nhiều trang mạng xã hội như Facebook.com có tính năng Nhóm (group), Twitter.com có tính năng Nhóm (list), … Mỗi cộng đồng hay nhóm (a community /a group) trên các mạng xã hội là tập hợp những người cùng quan tâm về một chủ đề, đối tượng hay nhóm đối tượng nào đó. Mỗi nhóm được biểu diễn bởi một meta-data (siêu dữ liệu) của chúng, một người dùng có thể không hoặc có thể tham gia từ một cho đến nhiều nhóm trên mạng xã hội. Mỗi meta-data của nhóm được xem là một đặc trưng của nhóm, để ước lượng và phân tích các đặc trưng này được ký hiệu như sau: - Tên nhóm là name: Tên nhóm thường được đặt theo nguyên tắc đặt tên do dịch vụ của mạng xã hội cung cấp, được tạo khi người quản trị tạo nhóm, tên nhóm có thể thay đổi trong quá trình tồn tại và hoạt động của nhóm - Kiểu hoặc loại hình của nhóm là style: Trên các mạng xã hội, loại hình của nhóm có thể là câu lạc bộ, có thể là cộng đồng, có thể là hoạt động trường lớp, nhóm mua và bán, học tập nghiên cứu, … - Mô tả về nhóm là desc: Mô tả về nhóm thường trình bày tổng quát nhất về hoạt động chính của nhóm, các quy định và các nội dung thực hiện trong nhóm. Ví dụ minh họa trong Bảng 1 Bảng 1. Minh họa các đặc trưng của một nhóm trên mạng xã hội Tên thuộc tính Giá trị Tên (name) Mua bán trao đổi Kính thiên văn, Ống nhòm, linh kiện Mô tả (desc) Nơi trao đổi mua bán các loại Kính thiên văn, Ống nhòm, linh phụ kiện thiên văn cho các bạn trong toàn quốc. Nhận trách nhiệm trung gian trao đổi các hàng hóa khi các bạn ở xa cần xem hàng mới trả tiền. Danh sách nơi mua hàng uy tín, giá cả tốt tại Việt Nam: Hội thiên văn Loại (styl) Mua và bán 2.1.2. Ước lượng độ tương tự các nhóm trên mạng xã hội Để ước lượng độ tương tự quan tâm của hai người dùng trên các mạng xã hội dựa trên các nhóm tham gia, trước hết bài báo ước lượng độ tương tự của các nhóm trên mạng xã hội mà hai người dùng đó đã tham gia, sau đó, ước lượng độ tương tự của các nhóm đó với các chủ đề phổ biến trên mạng xã hội để xem xét về độ quan tâm tương tự của người dùng dựa trên các chủ đề. Việc ước lượng độ tương tự hai nhóm mà hai người dùng đã tham gia trên mạng xã hội được bài báo tiến hành như sau: Bước 1: Xây dựng bộ từ khóa cho các thuộc tính dựa trên kỹ thuật N-gram Bước 2: Xây dựng vectơ giá trị cho các bộ từ khóa bằng cách tính TF-IDF cho các từ khóa Bước 3: Ước lượng độ tương tự giữa 2 vectơ ở bước 2 theo độ đo Cosine. Để xây dựng bộ từ khóa cho các thuộc tính là name, styl và desc của hai nhóm trên mạng xã hội theo Bước 1, bài báo thực hiện bằng cách sử dụng kỹ thuật N-gram mà W. B. Cavnar và J. M. Trenkle [16] đề xuất để tách mỗi thuộc tính của nhóm thành các từ theo các N-gram với N=1, 2, 3. Sau đó, bái báo sử dụng từ điển Wikipedia và danh sách từ dừng Tiếng Việt để loại bỏ các từ dừng và từ không có nghĩa và thu được bộ từ khóa của mỗi thuộc tính của nhóm. Cách lấy định nghĩa các từ và danh sách từ dừng bài báo kế thừa và mở rộng từ đề xuất của S. A. Takale và S. S Nandgaonkar [14], trong nghiên cứu này S. A. Takale và S. S. Nandgaonkar tách các word đơn và tìm từ khóa theo NetWord trên Tiếng Anh, bài báo áp dụng và mở rộng trên các N-gram và sử dụng cho ngôn ngữ Tiếng Việt. Để xây dựng vectơ giá trị cho các bộ từ khóa, bài báo sử dụng cách tính TF-IDF cho các từ khóa đã tìm được trong Bước 1. TF-IDF (Term Frequency - Inverse Document Frequency) là trọng số của một từ trong danh sách từ khóa của các nhóm mà người dùng đã tham gia. TF-IDF được tính dựa trên thống kê mức độ quan trọng hay số lần xuất hiện của từ này trong danh sách các từ khóa đã có. Cách tính TF-IDF trong bài báo được thực hiện dựa trên công trình nghiên cứu [5] như sau:
556 ƯỚC LƯỢNG TƯƠNG TỰ QUAN TÂM CỦA NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI DỰA TRÊN NHÓM CỘNG ĐỒNG Giả sử U là một tập người dùng trên một mạng xã hội và mỗi ∈ có một tập các nhóm/group mà người dùng đó đã tham gia , với mỗi ∈ được biểu diễn bởi 3 thành phần là name, styl và desc Gọi ∈ , ∈ là hai nhóm cộng đồng trên mạng xã hội mà hai người dùng , ∈ tương ứng đã tham gia. Mỗi tập từ khóa của một nhóm ∈ được biểu diễn bằng một vectơ tương ứng. Gọi là số lần từ khóa xuất hiện trong vectơ v của nhóm , là tổng số từ khóa của vectơ , là tổng số các nhóm của người dùng u, là tổng số các nhóm của người dùng u có chứa từ khóa k. Khi đó: ( , )= , ( , )= ( ), (1) và − ( , )= ( , )∗ ( , ) (2) Sau khi tính TF-IDF của các từ khóa trong hai vectơ biểu diễn hai nhóm đã tham gia của hai người dùng tương ứng , ∈ , các giá trị trọng số của hai nhóm được lưu vào hai vectơ tương ứng , . Khi đó độ tương tự của hai nhóm/group mà , ∈ đã tham gia được tính như sau: , = , (3) Trong đó, , là các vectơ chứa TF-IDF của hai nhóm , tương ứng. 2.1.3. Ước lượng độ tương tự hai người dùng dựa vào các nhóm đã tham gia trên mạng xã hội Dựa trên công thức (3), bài báo ước lượng độ tương tự của hai người dùng dựa trên các nhóm/group mà họ đã tham gia như sau: Gọi , ∈ là hai người dùng, mỗi người dùng có tập các nhóm/group đã tham gia trên mạng xã hội gồm , ∈ và mỗi người dùng có một vectơ trọng số biểu diễn tập các nhóm mà họ đã tham gia tương ứng là , . Với mỗi cặp người dùng , ∈ thì mỗi thành phần của vectơ được tính như sau: Với mỗi ∈ của tính độ tương tự của với tất cả các nhóm g ∈ G của u ∈ U. Mỗi thành phần u được tính theo công thức: = ( ( , ), … , ( , )) (4) Trong đó, ∈ và m là số nhóm của và , là độ tương tự của hai nhóm , tương ứng. Mỗi thành phần của vectơ cũng được tính tương tự. Khi đó, độ tương tự của hai người dùng , ∈ dựa trên các nhóm đã tham gia được tính bằng: , = ( , ) (5) Trong đó , là các vec tơ chứa trọng số các nhóm đã tham gia của hai người dùng , tương ứng. Có thể thấy rằng , nằm trong khoảng [0,1] 2.2. Ước lượng quan tâm của người dùng theo chủ đề 2.2.1. Xác định các chủ đề trên mạng xã hội Phát hiện các chủ đề và các quan tâm đến các chủ đề của người dùng đã được rất nhiều nghiên cứu đưa ra như các nghiên cứu của Bhattacharya et al [2], Diana et al [7], Li Xin et al [9], Sheng Bin et al [13]. Bài báo dựa trên các kết quả nghiên cứu trước đó của chính nhóm tác giả [11] để áp dụng cho bài toán phân loại các nhóm/group của người dùng theo các chủ đề, nhóm nghiên cứu sau khi phân tích đã thu được một danh sách gồm 21 chủ đề chính và 81 chủ đề con được sử dụng phổ biến trên mạng xã hội. Bài báo kế thừa kết quả nghiên cứu đó để áp dụng cho ước lượng và phân loại các nhóm/group vào các chủ đề. Ví dụ một số chủ đề được minh họa trong Bảng 2. Bảng 2. Ví dụ về chủ đề cùng từ khóa của chủ đề Chủ đề Danh sách từ khóa Giáo dục Giáo dục, tiếng Anh, học tập, kiến thức, thói quen, thế hệ, giảng dạy, đào tạo, nghiên cứu, trải nghiệm, giáo dục, tiểu học, trung học, từ nguyên, từ đồng, tiếng Việt, toàn cầu, Quốc tế, Kinh tế, Xã hội, Văn hóa, Quốc công, cha mẹ, trực tuyến, Liên Hiệp Quốc, học trực tuyến, giáo dục tiểu học, … Công nghệ Công nghệ, biến đổi, sử dụng, kiến thức, công cụ, máy móc, kỹ thuật, kỹ năng, nghề nghiệp, hệ thống, phương pháp, tổ chức, giải quyết, vấn đề, cải tiến, giải pháp, tồn tại, mục đích, thực hiện, chức năng, cụ thể, tập hợp, bao gồm, sắp xếp, quy trình, ảnh hưởng, đáng kể, khả năng, kiểm soát, thích nghi, con người, động vật, môi trường, tự nhiên, Thuật ngữ, lĩnh vực, công nghệ, xây dựng, khoa học, đôi khi, tương tự, với nhau, chẳng hạn, Tuy vậy, Khoa học, toàn bộ, hoạt động, hình thức, giải thích, tiên đoán, kiểm tra, vũ trụ, ứng dụng, kinh tế, xã hội, thực tiễn, thiết kế, duy trì, cấu trúc, thiết bị, vật liệu, quá trình
Nguyễn Thị Hội, Trần Đình Quế 557 Mỗi chủ đề sau khi xác định danh sách từ khóa được biểu diễn bằng một vectơ trọng số được tính toán theo công thức (2). Trong đó, chỉ số k là chủ đề thứ k trong danh sách các chủ đề và w là ký hiệu vectơ chứa trọng số các từ khóa của chủ đề thứ k. 2.2.2. Xác định quan tâm theo các chủ đề Gọi là tập danh sách các từ khóa được xây dựng từ ba thuộc tính gồm name, styl và desc của các nhóm mà người dùng ∈ đã gia nhập trên các mạng xã hội. T là danh sách các chủ đề phổ biến trên các mạng xã hội đã được xây dựng và đề cập đến trong mục B.1. Khi đó, độ tương tự của mỗi nhóm ∈ có vectơ trọng số tính theo TF-IDF với chủ đề ∈ được tính bằng: , = ( , ) (6) Trong đó, là vec tơ trọng số của danh sách các từ khóa thu được từ nhóm thứ k của người dùng ∈ và là vectơ trọng số của chủ đề ∈ . Sau khi tính độ tương tự của mỗi nhóm ∈ thì độ quan tâm dựa trên các nhóm đã tham gia của người dùng u ∈ U theo chủ đề t ∈ T được tính như sau: 0, ( , , , = (7) … ( , Trong đó, n là số các nhóm mà người ∈ đã gia nhập và ∈ là chủ đề thứ j trong danh sách các chủ đề đang xem xét của bài báo. 2.3. Ước lượng quan tâm tương tự của người dùng dựa trên nhóm Với mỗi , ∈ trên mạng xã hội cùng tập các nhóm , ∈ , độ quan tâm của người dùng ∈ với các chủ đề ∈ dựa trên các nhóm tham gia trên mạng xã hội được biểu diễn bằng công thức (7). Dựa trên công thức (7), bài báo, ước lượng độ tương tự quan tâm của hai người dùng , ∈ với chủ đề ∈ dựa trên các nhóm/group đã tham gia như sau: , , = ( ( , ), , ) (8) Có thể thấy rằng , , nằm trong khoảng [0,1]. Sau khi đề xuất cách ước lượng độ quan tâm tương tự giữa hai người dùng dựa trên các nhóm/group mà họ đã tham gia trên các mạng xã hội theo các chủ đề nghiên cứu, bài báo đề xuất giả thuyết rằng: Nếu hai người dùng tương tự nhau theo các nhóm/group mà họ đã tham gia trên các mạng xã hội thì họ cũng sẽ quan tâm đến một số chủ đề tương tự nhau và ngược lại. Để trả lời cho giả thuyết này, trong phần 3 bài báo trình bày thực nghiệm dựa trên dữ liệu thực để kiểm nghiệm lại các công thức đã đề xuất. III. THỰC NGHIỆM VÀ ĐÁNH GIÁ Như bài báo đã trình bày cuối mục II.B, mục đích của thực nghiệm là kiểm nghiệm giả thuyết của bài báo cho rằng: “Nếu hai người dùng tương tự nhau theo các nhóm họ đã tham gia trên các mạng xã hội thì họ sẽ quan tâm đến một số chủ đề tương tự nhau và ngược lại” dựa trên dữ liệu thực. 3.1. Thu thập dữ liệu và xây dựng tập dữ liệu thử nghiệm Bài báo thực hiện việc thu thập dữ liệu từ trang mạng xã hội Facebook.com. Mỗi người dùng được trích xuất các nhóm họ đã tham gia, bài báo chỉ thu thập được các nhóm công khai (public) của người dùng mà không thu thập được các nhóm bí mật (secret) hoặc các nhóm kín. Trong mô hình đề xuất, bài báo chỉ xem xét các nhóm với ba thuộc tính là tên nhóm, mô tả nhóm và loại hình của nhóm, những nhóm bị khuyết một trong ba đặc trưng thì bài báo coi giá trị bằng Null. Những nhóm nào bị khuyết 2 đặc trưng trở lên thì bài báo sẽ loại bỏ khỏi tập dữ liệu thử nghiệm. Sau khi đã xử lý, cơ sở dữ liệu thử nghiệm thu được 20 người dùng thực tế và tạo thành bộ dữ liệu thử nghiệm với 210 cặp người dùng để so sánh, bài báo thực hiện mã hóa tên người dùng thành danh sách từ U001 đến U020 thành các cặp so sánh là mẫu dữ liệu như minh họa trong Bảng 3 Bảng 3. Danh sách các cặp người dùng thử nghiệm U001 U002 U003 … U019 U020 U001 C1,1 C1,2 C1,3 ... C1,19 C1,20 U002 C2,2 C2,3 ... C2,19 C2,20 ... ... ... ... ... ... U019 C9,19 C9,20 U020 C20,20
558 ƯỚC LƯỢNG TƯƠNG TỰ QUAN TÂM CỦA NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI DỰA TRÊN NHÓM CỘNG ĐỒNG Sau khi phân tích và loại bỏ các bớt các cặp trùng lặp, ví dụ C1,2 và C2,1, bài viết loại bỏ C2,1 chỉ để C1,2. Các cặp C1,1 vẫn giữ nguyên. Bài viết thu được tổng cộng số lượng mẫu thử nghiệm ở Bảng 4. Bảng 4. Bộ dữ liệu mẫu thu được Số lượng Người dùng 20 Số cặp người dùng so sánh 210 Số nhóm tham gia 21 3.2. Thực nghiệm Kịch bản thực nghiệm được thực hiện theo 6 bước như sau: Bước 1: Xây dựng bộ từ khóa của các nhóm mà người dùng đã tham gia dựa trên kỹ thuật N-gram, trích chọn các từ khóa theo từ điển, loại bỏ từ dừng và tính TF-IDF của mỗi từ khóa thu được Bước 2: Ước lượng độ tương tự của mỗi cặp người dùng theo TF-IDF thu được ở Bước 1 Bước 3: Xây dựng bộ từ khóa của các chủ đề theo từ điển, tách từ dừng và tính TF –IDF của chúng Bước 4: Ước lượng độ tương tự của các nhóm của mỗi người dùng với mỗi chủ đề đã thu được Bước 5: Ước lượng độ quan tâm tương tự của các cặp người dùng với mỗi chủ đề. Thực hiện lần lượt với tất cả các nhóm của các cặp người dùng trong bộ dữ liệu thử nghiệm. Chi tiết các bước thử nghiệm như sau: Đầu tiên, phân tích các bài viết thành các từ khóa, loại bỏ từ dừng, lấy định nghĩa các từ khóa theo từ điển, phân tích lại và tính TF-IDF của mỗi từ khóa được minh họa trong Bảng 5 theo công thức (2). Bảng 5. Phân tích một nhóm cộng đồng và danh sách từ khóa tương ứng Tên (name) Mua bán trao đổi Kính thiên văn, Ống nhòm, linh kiện Một Mô tả (desc) Nơi trao đổi mua bán các loại Kính thiên văn, Ống nhòm, linh phụ kiện thiên văn cho nhóm các bạn trong toàn quốc. Nhận trách nhiệm trung gian trao đổi các hàng hóa khi các của bạn ở xa cần xem hàng mới trả tiền. Danh sách nơi mua hàng uy tín, giá cả tốt tại Việt U011 Nam: Hội thiên văn Loại (styl) Mua và bán mua bán, trao đổi, ống nhòm, linh kiện, kính thiên văn, phụ kiện, toàn quốc, trách nhiệm, trung gian, Từ hàng hóa, trả tiền, danh sách, mua hàng, uy tín, giá cả, Việt Nam, văn nghiệp, nghiệp dư, Hà Nội, cửa khóa hàng, thế giới Sau đó, tính độ tương tự giữa các nhóm dựa trên danh sách từ khóa thu được và trọng số TF-IDF. Ở bước thứ hai các cặp nhóm của các người dùng được ước lượng độ tương tự bằng cosine của hai vec tơ chứa TF-IDF tương ứng của chúng theo công thức (3). Bảng 6. Độ tương tự hai nhóm theo TF-IDF Tên Mua bán trao đổi Kính thiên văn, Group Tinh tế nhóm Ống nhòm, linh kiện Từ khóa mua bán, trao đổi, ống nhòm, linh kiện, tinh tế, anh em, nội dung, phù hợp, chính thức, diễn kính thiên văn, phụ kiện, toàn quốc, trách đàn, khoa học, công nghệ, nghệ được, ưu tiên, một số, nhiệm, trung gian, hàng hóa, trả tiền, danh như sau, quảng cáo, điện thoại, màn hình, đạo lý, vấn sách, mua hàng, uy tín, giá cả, Việt Nam, đề, nhảm nhỉ, cô giáo, học sinh, khiếu nại, chữ hoa, văn nghiệp, nghiệp dư, Hà Nội, cửa hàng, giải thích, quy định, áp dụng, phía trước, liên tục thế giới Sau đó, bài báo phân tích định nghĩa của các chủ đề thành các từ khóa dựa trên kỹ thuật N-gram, loại bỏ từ dừng và tính TF –IDF của chúng theo công thức (2). Cuối cùng, ước lượng độ tương tự của các nhóm của mỗi người dùng với các chủ đề đã thu được minh họa trong Bảng 7. Bảng 7. Độ quan tâm của người dùng theo chủ đề Môi trường Sức khỏe Công nghệ Du lịch Giáo dục Hôn nhân U001 0.0159 0.0133 0.0400 0.0293 0.0135 0.0482 U003 0.0357 0.0259 0.0242 0.0319 0.0338 0.0244 U006 0.0357 0.0167 0.0264 0.0095 0.0281 0.0 U007 0.0349 0.0218 0.0298 0.0247 0.0269 0.0229 U008 0.0366 0.0318 0.0210 0.0170 0.0268 0.1213 U010 0.0429 0.0262 0.0239 0.0282 0.0 0.0274 … … … … … … …
Nguyễn Thị Hội, Trần Đình Quế 559 Độ quan tâm của người dùng đối với các chủ đề phổ biến trên các mạng xã hội được tính theo công thức (6). Dựa trên Bảng 7 và công thức (8) để ước lượng độ tương tự quan tâm của người dùng theo các chủ đề dựa trên các nhóm đã tham gia, bài báo lựa chọn ngưỡng , , >=0.55. Những cặp người dùng nào không thỏa mãn được ngưỡng này, bài báo coi là quan tâm ít tương tự nhau hay khác nhau theo các chủ đề trên mạng xã hội. Bảng 8. Độ quan tâm tương tự dựa trên các nhóm/group U001 U002 U003 … U019 U020 U001 1.0 U002 0.633 1.0 U003 0.510 0.327 1.0 … … … U019 0.643 0.816 0.744 1.0 U020 0.121 0.572 0.667 … 0.842 1.0 3.3. Đánh giá Để đánh giá độ tương quan của công thức (4) và công thức (8), bài báo sử dụng giá trị trung bình độ lệch tuyệt đối và giá trị trung bình độ lệch tương đối để tính toán như sau: Đánh giá theo trung bình độ lệch tuyệt đối và độ chính xác của mô hình: TB độ lệch tuyệt đối = TB của các | , − , , | (9) Với kết quả từ thực nghiệm trong từ bộ mẫu dữ liệu thực nghiệm thì mô hình đề xuất có trung bình độ lệch tuyệt đối là: 0.118, khi đó, độ chính xác của mô hình đề xuất được tính theo: CR=(1- TB độ lệch tuyệt đối)*100% , và CR thu được là 88.2% Đánh giá theo trung bình độ lệch tương đối: | , , , | TB độ lệch tương đối = TB của các (10) ( , , , , ) Với kết quả từ thực nghiệm trong bộ mẫu dữ liệu thực nghiệm thì mô hình đề xuất có trung bình độ lệch tương đối sẽ là: 0.148. Khi đó, độ chính xác của mô hình đề xuất được tính theo: CR =(1- TB độ lệch tương đối)*100% , và CR thu được có độ chính xác bằng 85.2% Bảng 9. Đánh giá mô hình và sự tương quan TB độ lệch tuyệt đối TB độ lệch tương đối CR theo độ lệch tuyệt đối CR theo độ lệch tương đối Facebook 0.118 0.148 88.2% 85.2% IV. KẾT LUẬN Bài báo đã đề xuất mô hình ước lượng độ tương tự quan tâm của người dùng dựa trên các nhóm mà người dùng đã tham gia trên các mạng xã hội. Mô hình đề xuất có thể áp dụng trong việc phân loại người dùng trên các mạng xã hội hoặc xác định quan tâm của người dùng theo các chủ đề ứng dụng trong các chương trình quảng cáo, các hệ thống khuyến nghị người dùng, hoặc có thể ứng dụng trong các bài toán dự báo dựa trên quan tâm của người dùng trên các mạng xã hội… TÀI LIỆU THAM KHẢO [1]. Attacharya Parantapa, Zafar Muhammad Bilal, Ganguly Niloy, Ghosh Saptarshi, Gummadi Krishna P. Inferring User Interests in the Twitter Social Network Proceedings of the 8th ACM Conference on Recommender Systems, RecSys '14 pgs 357-360, ACM, New York, NY, USA. [2]. Bruno Ohana and Brendan Tierney. Sentiment classification of reviews using sentiwordnet. 2009. [3]. Chihli Hung and Hao-Kai Lin. Using objective words in sentiwordnet to improve word-of-mouth sentiment classification. IEEE Intelligent Systems, 28(2):47–54, 2013. [4]. D. Manning, Prabhakar Raghavan, Hinrich Schutze, 2008. Introduction to Information Retrieval. 27 Oct 2013. [5]. Dekang Lin. An information-theoretic definition of similarity. In Proc. 15th International Conf. on Machine Learning, pages 296–304. Morgan Kaufmann, San Francisco, CA, 1998. [6]. Diana Palsetia, Md. Mostofa, Ali Patwary, Kunpeng Zhang , Kathy Lee, Christopher Moran, Yves Xie, Daniel Honbo, Ankit Agrawal, Wei-keng Liao, Alok Choudhary. User-Interest based Community Extraction in Social Networks ACM, NY, USA, 2012.
560 ƯỚC LƯỢNG TƯƠNG TỰ QUAN TÂM CỦA NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI DỰA TRÊN NHÓM CỘNG ĐỒNG [7]. Elie Raad, Richard Chbeir, and Albert Dipanda. User profile matching in social networks. In Proceedings of the 2010 13th International Conference on NetworkBased Information Systems, NBIS’10, pages 297–304, Washington, DC, USA, 2010. IEEE Computer Society. [8]. Li Xin, Guo Lei, Zhao Yihong Eric. Tag-based Social Interest Discovery. Proceedings of the 17th International Conference on World Wide Web Beijing, China,pages 675- 684, ACM, New York, NY, USA. [9]. Manh Hung Nguyen and Thi Hoi Nguyen. General model for similarity measurement between objects. International Journal of Advanced Computer Science and Applications(IJACSA) 6(2):235-239, 2015. [10]. Nguyễn Thị Hội, Đàm Gia Mạnh, Trần Đình Quế. Độ tương đồng ngữ nghĩa các bài viết trên mạng xã hội dựa trên Wikipedia. Hội nghị Khoa học Quốc gia: Nghiên cứu cơ bản và ứng dụng CNTT lần 10 - FAIR'10. Thg8/2017. [11]. Pavan Kapanipathi, Prateek Jain, Chitra Venkataramani, Amit Sheth. User Interests Identification on Twitter Using a Hierarchical Knowledge Base 11th ESWC 2014 (ESWC2014), 2014, May. [12]. Sheng Bin, Gengxin Sun, Peijian Zhang and Yixin Zhou. Tag-Based Interest-Matching Users Discovery Approach in Online Social Network. International Journal of Hybrid Information Technology Vol. 9, No. 5 (2016), pp. 61-70. [13]. Sheetal A Takale, Sushma S Nandgaonkar. Measuring semantic similarity between words using web documents. International Journal of Advanced Computer Science and Applications (IJACSA) Volume 1, Issue 4. 2010. [14]. Nguyen T. H., Tran D. Q., Dam G. M., Nguyen M. H. (2018). Integrated Sentiment and Emotion into Estimating the Similarity Among Entries on Social Network. In: Chen Y., Duong T. (eds) Industrial Networks and Intelligent Systems. INISCOM 2017. Lecture Notes of the Institute for Computer Sciences, Social Informatics and Telecommunications Engineering, vol 221. Springer, Cham. [15]. W. B. Cavnar and J. M. Trenkle. N-gram-based text categorization. Ann Arbor MI, 48113(2):161–175, 1994. [16]. Zhao Zhe, Cheng Zhiyuan, Hong Lichan, Hsin Chi Ed Huai. Improving User Topic Interest Profiles by Behavior Factorization 2015, Pages 1406-1416, ACM, New York, NY, USA. [17]. Perelman L. C., Paradis J., Barrett E.. Mayfield Handbook of Technical and Scientific Writing, Mayfield, Mountain View, California (1997). ESTIMATING USER’S INTEREST ON SOCIAL NETWORKS BASED ON GROUPS Nguyen Thi Hoi, Tran Dinh Que ABSTRACT: Discovering interests of users on social networks is one of the issues attracting many researches and being applied to various fields, such as user recommendations, personalized ads, or categorizing users into groups. In this paper, we propose an approach based on the analysis of user’s groups on social networks to detect and compare the correlations of interest of two users on the network. Our proposal is also empirically evaluated with the real data. The evaluation shows that the more same bahaviors two users have, the more similar interests they have. And vice versa, if two users have similar interests, their entries are the same.