
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trần Trung Hiếu
HỌ THUẬT TOÁN GIRVAN-NEWMAN TRONG
PHÁT HIỆN CỘNG ĐỒNG VÀ CÀI ĐẶT THỬ
NGHIỆM TRÊN MẠNG XÃ HỘI TRỰC TUYẾN
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2011

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trần Trung Hiếu
HỌ THUẬT TOÁN GIRVAN-NEWMAN TRONG
PHÁT HIỆN CỘNG ĐỒNG VÀ CÀI ĐẶT THỬ
NGHIỆM TRÊN MẠNG XÃ HỘI TRỰC TUYẾN
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn : PGS.TS Hà Quang Thụy
Cán bộ đồng hướng dẫn : ThS Nguyễn Cm Tú.
HÀ NỘI - 2011

LỜI CẢM ƠN
Đầu tiên, em xin gửi lời cảm ơn chân thành và sâu sắc nhất tới thầy Hà Quang
Thụy, người đã trực tiếp hướng dẫn tận tình và đóng góp những ý kiến quý báu trong
suốt quá trình em làm khóa luận tốt nghiệp này.
Em xin gửi lời cảm ơn tới giáo viên đồng hướng dẫn, cô Nguyễn CNm Tú cũng
như các anh chị và các bạn trong phòng thí nghiệm KT-SISLAB, những người đã tận
tình giúp đỡ em trong quá trình làm khóa luận
Tiếp theo em xin gửi lời cảm ơn đến đến các thầy cô giáo trường Đại Học Công
Nghệ - Đại Học Quốc Gia Hà Nội, đã tận tâm truyền đạt những kiến thức quý báu làm
nền tảng để em bước vào đời. Em xin gửi lời cảm ơn tới sự hỗ trợ từ đề tài QG.10.38
trong quá trình em làm khóa luận.
Cuối cùng, em xin được cảm ơn cha mẹ, bạn bè và người thân, những người đã
ở bên em, khuyến khích và động viên em trong cuộc sống, học tập.
Sinh viên
Trần Trung Hiếu

LỜI CAM ĐOAN
Tôi xin cam đoan mô hình phát hiện cộng đồng trong mạng xã hội trực tuyến
Twitter và thực nghiệm dựa trên họ thuật toán Girvan-Newman được trình bày trong
khóa luận là do tôi thực hiện dưới sự hướng dẫn của PGS. TS. Hà Quang Thụy và
ThS. Nguyễn CNm Tú.
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc
một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận,
không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ
về tài liệu tham khảo.
Hà Nội, ngày 22 tháng 5 năm 2011
Sinh viên
Trần Trung Hiếu

TÓM TẮT KHÓA LUẬN
Mạng xã hội và bài toán phát hiện cộng đồng trong mạng xã hội là nội dung
nghiên cứu thời sự, được nhiều nhà khoa học thuộc nhiều lĩnh vực như xã hội học,
kinh tế, khoa học máy tính, sinh học, … quan tâm nghiên cứu [xx]. Các nhà khoa học
đã đề xuất các thuật toán phát hiện cộng đồng trong mạng xã hội, trong đó thuật toán
Girvan-Newman được Girvan và Newman đề xuất năm 2002 và các cải tiến của thuật
toán này được sử dụng khá phổ biến vì tính hiệu quả của chúng [xxx].
Trong khóa luận này, chúng tôi đi sâu nghiên cứu họ thuật toán Girvan-
Newman cho phát hiện cộng đồng, tập trung vào thuật toán CONGA (Cluster
Overlapping Newman Girvan Algorithm) được Steve Gregory đề xuất năm 2007.
Chúng tôi đề nghị một mô hình áp dụng thuật toán CONGA phát hiện cộng đồng trong
mạng trực tuyến Twitter. Hệ thống thực nghiệm phát hiện cộng đồng trong Twitter
được xây dựng dựa trên phần mềm CONGA (Steve Gregory, 2010) và giao diện
chương trình ứng dụng Twitter API (Yusuke Yamamoto và cộng sự, 2009).
Kết quả phân cụm thử nghiệm trên một đồ thị con của Twitter (do chúng tôi xây
dựng) được đánh giá theo phân lớp SVM cho độ đo F1 khoảng 81% cho thấy mô hình
đặt ra là có tính khả thi.

