
i
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Xuân Đạo
PHÁT HIỆN BẤT THƯỜNG TRÊN
PHƯƠNG TIỆN XÃ HỘI DỰA TRÊN
KỸ THUẬT KHAI PHÁ DỮ LIỆU
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI – 2016

ii
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Xuân Đạo
PHÁT HIỆN BẤT THƯỜNG TRÊN
PHƯƠNG TIỆN XÃ HỘI DỰA TRÊN
KỸ THUẬT KHAI PHÁ DỮ LIỆU
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: PGS. TS Hà Quang Thụy
Cán bộ đồng hướng dẫn: TH.S Nguyễn Thành Công
Chữ ký:
HÀ NỘI – 2016

iii
VIETNAM NATIONAL UNIVERSITY, HANOI
UNIVERSITY OF ENGINEERING AND TECHNOLOGY
Le Xuan Dao
OUTLIER DETECTION IN SOCIAL MEDIA BASE ON DATA MINING
A THESIS PRESENTED FOR THE DEGREE BACHELOR
Department: Information Technology
Supervisor: Assoc.Prof. Ha Quang Thuy
Co-Supervisor: MsC. Nguyen Thanh Cong
HÀ NỘI – 2016

iv
LỜI CẢM ƠN
Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc nhất tới Thầy giáo,
Phó Giáo sư – Tiến sĩ Hà Quang Thụy và anh, Thạc sỹ Nguyễn Thành Công, giám đốc
công ty Datasection Vietnam đã tận tình chỉ bảo, hướng dẫn, động viên và giúp đỡ em
trong suốt quá trình thực hiện đề tài.
Em cũng xin được gửi lời cảm ơn chân thành nhất tới quý thầy cô giáo trong
Khoa Công nghệ thông tin nói riêng và trong trường Đại học Công nghệ - Đại học
Quốc Gia Hà Nội nói chung, đã truyền đạt kiến thức quý báu cho em trong 4 năm đại
học.
Em xin được gửi lời cảm ơn tới các anh chị trong công ty Datasection Vietnam
đã hỗ trợ em rất nhiều trong quá trình thực hiện và hoàn thành đề tài của mình.
Em cũng xin được gửi lời cảm ơn tới các anh chị, các bạn trong phòng thí
nghiệm Công nghệ tri thức và khoa học dữ liệu KT-Lab đã giúp em rất nhiều trong
việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khóa luận của mình.
Cuối cùng, con xin tỏ lòng biết ơn vô hạn đến bố mẹ vì công ơn sinh thành
dưỡng dục, chăm lo và dành trọn tình yêu thương, luôn động viên, ủng hộ con trên con
đường học tập.
Tôi xin chân thành cảm ơn !
Hà Nội, ngày 25 tháng 04 năm 2016
Sinh viên
Lê Xuân Đạo

v
TÓM TẮT
Phương tiện xã hội (Social media) hình thành và phát triển nhanh chóng (Ví
dụ: Facebook, Twitter) đã cung cấp lượng dữ liệu phong phú liên quan đến sản phẩm,
thị trường và đối thủ cạnh tranh mà rất hữu ích cho các tổ chức, doanh nghiệp. Tuy
nhiên, nguồn dữ liệu phong phú đó cũng chứa đựng sự bất thường mà ở đó các phần tử
dữ liệu có sự khác biệt lớn so với phần tử khác. Phát hiện bất thường từ dữ liệu
phương tiện xã hội sẽ làm cho dữ liệu đó thực sự trở nên hữu ích hơn khi được phân
tích. Đây là chủ đề nghiên cứu - triển khai có ý nghĩa và nhiều kết quả nghiên cứu đã
được công bố như P. Galeano và cộng sự (2006), D. J. Hill và B. S. Minsker (2010), M.
Gao và cộng sự (2013, 2014), v.v.
Khóa luận này đi sâu vào bài toán phát hiện sự bất thường trên mạng xã hội
Facebook. Dựa trên kết quả nghiên cứu của Manish Gupta và cộng sự về phát hiện sự
bất thường và kỹ thuật phát hiện sự bất thường cho từng loại dữ liệu, về đặc tính, xu
hướng [13]. Trong khóa luận này, tôi đề xuất một mô hình phát hiện trang mạng xã hội
(FanPage) có sự bất thường về mức độ tương tác của người dùng trong một khoảng
thời gian, trên dữ liệu một chủ đề nào đó. Để đánh giá thực nghiệm mô hình phát hiện
bất thường trên tập dữ liệu Fanpage Facebook, tôi sử dụng một tập dữ liệu lớn với hơn
298.000 trang mạng đầu vào, chọn ra chủ đề có số lượng trang mạng thu thập được
trên 1000 trang. Với dữ liệu thực nghiệm 1031 pages chủ đề “Actor”, mô hình đã phát
hiện ra 26 pages có giá trị thuộc tính dị thường, khác biệt lớn với các trang mạng còn
lại trong tập dữ liệu.
Từ khóa: khai phá dữ liệu, sự bất thường, phát hiện sự bất thường, phân cụm, phương
tiện xã hội, trang mạng xã hội, Facebook, dòng dữ liệu, dữ liệu không-thời gian.

