ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
--------------------------------------
HỒ TRUNG THÀNH
PHÂN TÍCH MNG XÃ HI DA THEO MÔ HÌNH
CH ĐỀNG DNG
Chuyên ngành Khoa học máy tính
Mã số: 62.48.01.01
TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
TP. HỒ CHÍ MINH - NĂM 2017
Công trình được hoàn thành tại Trường Đại học Công nghệ Thông tin,
Đại học Quốc gia TP.HCM.
Người hướng dẫn khoa học: PGS. TS. Đỗ Phúc
Phản biện 1:
Phản biện 2:
Phản biện 3:
Luận án sẽ được bảo vệ trước
Hội đồng chấm luận án cấp Trường tại:
……………………………………………………………………
……………………………………………………………………
Vào lúc …… giờ …….. ngày …….. tháng ……..năm …….
Có thể tìm luận án tại:
- Thư viện Quốc gia Việt Nam.
- Thư viện Trường Đại học Công nghệ Thông tin, ĐHQG-HCM.
1
TỔNG QUAN VỀ LUẬN ÁN
1. Động cơ nghiên cứu
Mc tiêu phân tích mng hi (MXH) phân tích s tương tác giữa con
ngưi, t chc vi nhau khám phá nhng thông tin, tri thc tim n thông
qua s tương tác đó [27][28][41][59]. Xu ng gần đây, các nghiên cu tp
trung vào khai thác phân tích MXH. MXH đã phát triển nhanh chóng vì
cho phép nhân, t chức tương tác dễ dàng. Chính MXH đã tạo nên s
không l thuc vào không gian thi gian khi giao tiếp ca nhân cng
đồng. Mỗi nhân trên MXH đều th kết bn và trò chuyn vi bt k mt
nhân khác trên cùng MXH đó. Một s MXH trc tuyến điển hình như
Facebook, LinkedIn, MySpace, Twitter. Các MXH này mang lại lượng ln d
liệu thông điệp trao đổi ca nhân thông qua các liên kết hi. th
biu din d liu này bng cấu trúc đồ th ca MXH và ni dung d liu là
thông tin trao đi giữa các thành viên trên MXH trong đó bao gm d liu
thông điệp, d liệu đa phương tiện,... Đây chính ngun d liệu để phân tích
MXH tìm ra nhng thông tin, tri thc tim ẩn được chứa đựng trong d liu
trên MXH.
Thông điệp được nhân trao đổi trên MXH, diễn đàn hay hệ thng e-mail
s pha trn nhiu ch đề. Ch đ trong thông điệp được cá nhân quan tâm trao
đổi chia s to nên s lan truyn thông tin t nhân này đến nhân khác
hình thành cộng đồng MXH cùng quan tâm đến các ch đề. Khai thác ch đề
quan tâm của nhân cũng như phân tích mối liên kết hi gia các nhân
qua những thông điệp, d liệu trao đổi mt công vic nhiu thách thc, đặc
bit ch đề thường xuyên được thay đổi theo thi gian hoặc đôi khi một ch
đềth được trao đổi thưng xuyên, liên tc trong mt khong thi gian nào
đó. Bên cạnh đó, chủ đề của thông điệp được tho lun có th là khác nhau tu
theo s thích, hành vi, mức độ quan tâm, trao đi ca tng nhân theo tng
giai đoạn thi gian. Khám phá ch đề quan tâm phân tích vai trò ca
nhân trên MXH là mt thách thức đặt ra cho bài toán vi mc tiêu tr lời đưc
các câu hỏi “cá nhân đã trao đổi ch đề trên MXH theo thời gian?”, “mức
độ quan tâm ca nhân đến ch đề c th như thế nào?”, “có bao nhiêu
nhân quan tâm đến ch đề?”, “chủ đ nào được quan tâm nhiu nhất?” “có
thay đổi gì v s quan tâm đến các ch đề ca cá nhân theo từng giai đoạn thi
gian?”.
Bên cnh vic khám phá vai trò cá nhân trên MXH, mt thách thức khác đt ra
là phân tích MXH đ khám phá nhóm cá nhân (cộng đồng) cùng quan tâm ch
2
đề theo từng giai đoạn thi gian. Khám phá nhóm cá nhân hay khám phá cng
đồng cách để nhn biết nhóm các nhân mi liên kết hi vi nhau
trên MXH cùng ch đề quan, đồng thi giúp hiểu đưc s quan tâm ca
tng nhân trong cộng đồng MXH theo tng ch đề c th. Những thay đổi
xy ra trong cộng đồng thường liên quan đến các đặc trưng của cộng đồng
như: chủ đề quan tâm, s nhân tham gia cộng đng, mức đ quan tâm ch
đề ca cộng đồng ti tng thời điểm khác nhau, s thay đi ch đ quan
tâm trong cộng đồng dẫn đến thay đổi hành vi, s quan tâm và trao đi ch đề
ca các nhân trong cộng đồng. Vấn đ đặt ra là làm thế nào đth khám
phá cộng đồng nhân ng quan tâm đến mt hay mt nhóm ch đề thông
qua nhng ni dung thông điệp được trao đổi ca tp cá nhân trên MXH? Vi
mt hay nhóm ch đề c th có nhng cộng đồng nào trên MXH quan tâm trao
đổi? S biến thiên ch đề quan tâm và nhân tham gia cộng đồng? Tìm gii
pháp cho các câu hi này rõ ràng là việc không đơn giản nhưng kết qu nghiên
cu s giúp cho vic phân tích khám phá ch đề đưc nhân quan tâm
hay tìm ra nhng nhân ảnh hưởng trong cộng đồng để phc v cho
nhng chiến lược phát triển nqun cộng đồng nhân ca công ty, t
chc hay ca mt quc gia; hiểu nhân để thc hin chiến lược tiếp th hiu
qu, phát trin loại hình đào tạo trc tuyến trong trường đại hc,...
2. Mc tiêu nghiên cu
T những động nghiên cứu trên, lun án xây dng hai mc tiêu chính
các nhim v nghiên cu c thể. Trong đó, luận án xây dng các hình
phương pháp trong phân tích MXH da theo mô hình ch đ (Topic model) đ
khám pch đề quan tâm, vai trò ca nhân cộng đồng trên MXH theo
từng giai đoạn thi gian. C th hai mc tiêu chính sau:
(i) Xây dựng hình khám pchủ đề quan tâm của nhân trên MXH dựa
theo hình chủ đề yếu tố thời gian phân tích sự biến thiên chủ đề
quan tâm của cá nhân.
Nhim v nghiên cu ca mc tiêu (i) bao gm:
- Xây dựng phương pháp gán nhãn chủ đề quan tâm của nhân theo thời
gian dựa trên cây phân cấp chủ đề (Topic Taxonomy).
- Xây dựng hình Temporal-Author-Recipient-Topic (TART) dựa theo
hình chủ đđkhám phá chủ đề quan tâm phân tích vai trò của
nhân trên MXH đối với từng chủ đề quan tâm cụ thể theo từng giai đoạn
thời gian.
3
(ii) Xây dựng phương pháp khám phá cộng đồng (gom cụm nhân cùng
đặc trưng: chủ đề, mức đthời gian quan tâm chủ đề) trên MXH dựa
theo hình chủ đyếu tố thời gian phân tích sự biến thiên những
đặc trưng trong cộng đồng MXH.
Nhim v nghiên cu ca mc tiêu (ii) bao gm:
- Xây dựng phương pháp khám phá cộng đồng trên MXH cùng các chủ
đề quan tâm theo từng giai đoạn thời gian.
- Xây dựng phương pháp khảo sát sự biến thiên các đặc trưng của cộng
đồng. Trong đó, luận án tập trung vào hai đặc trưng chủ đề quan tâm và
cá nhân tham gia cộng đồng.
Các đối tượng trng tâm trong nghiên cu ca lun án:
- Mô hình chủ đề Latent Dirichlet Allocation (LDA).
- Các phương pháp, mô hình phân tích MXH dựa theo mô hình chủ đề.
- Các liên kết xã hi: ch đề và thông điệp được cá nhân trao đổi trên MXH.
- Vai trò (cá nhân cộng đồng): nhân ngưi gửi, người nhn, ch đề
cộng đồng nhóm nhng nhân cùng s quan tâm trao đi các
ch đề.
- Thời gian nhân quan tâm đến ch đề thông qua liên kết hi thông
đip.
T hai mc tiêu chính các nhim v nghiên cứu, hai bài toán chính đưc
đặt ra trong phm vi lun án, bao gm:
Bài toán 1. Khám phá ch đề quan tâm ca nhân da theo hình
ch đề có yếu t thi gian.
Xây dng hình TART da theo hình ch đề để khám pch đề quan
tâm phân tích vai trò ca nhân trên MXH theo từng giai đon thi gian
và xây dng phương pháp gán nhãn chủ đ n da trên cây phân cp ch đề.
Bài toán 1 được chia làm hai bài toán nh: (i) Bài toán 1.1. Khám phá gán
nhãn ch đề n t thông điện trên MXH; (ii) Bài toán 1.2. Khám phá ch đề
quan tâm ca cá nhân trên MXH có yếu t thi gian.
Ni dung thc hin ca bài toán 1.1 bao gm:
- Nghiên cứu cho trường hp d liệu thông điệp tiếng Vit trên MXH.
Thông điệp trên MXH chứa đựng nhiều từ viết tắt, từ không nghĩa, các
hiệu. Trước khi phân tích thông điệp, luận án phải tiến hành tiền xử
dữ liệu bằng cách lọc đi những từ (stopwords) hệ thống các từ viết