i
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Xuân Đạo
PHÁT HIỆN BẤT THƯỜNG TRÊN
PHƯƠNG TIỆN XÃ HỘI DỰA TRÊN
KỸ THUẬT KHAI PHÁ DỮ LIỆU
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI – 2016
ii
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Xuân Đạo
PHÁT HIỆN BẤT THƯỜNG TRÊN
PHƯƠNG TIỆN XÃ HỘI DỰA TRÊN
KỸ THUẬT KHAI PHÁ DỮ LIỆU
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: PGS. TS Hà Quang Thụy
Cán bộ đồng hướng dẫn: TH.S Nguyễn Thành Công
Chữ ký:
HÀ NỘI – 2016
iii
VIETNAM NATIONAL UNIVERSITY, HANOI
UNIVERSITY OF ENGINEERING AND TECHNOLOGY
Le Xuan Dao
OUTLIER DETECTION IN SOCIAL MEDIA BASE ON DATA MINING
A THESIS PRESENTED FOR THE DEGREE BACHELOR
Department: Information Technology
Supervisor: Assoc.Prof. Ha Quang Thuy
Co-Supervisor: MsC. Nguyen Thanh Cong
HÀ NỘI – 2016
iv
LỜI CẢM ƠN
Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc nhất tới Thầy giáo,
Phó Giáo – Tiến Hà Quang Thụy anh, Thạc sỹ Nguyễn Thành Công, giám đốc
công ty Datasection Vietnam đã tận nh chỉ bảo, hướng dẫn, động viên và giúp đỡ em
trong suốt quá trình thực hiện đề tài.
Em cũng xin được gửi lời cảm ơn chân thành nhất tới quý thầy giáo trong
Khoa Công nghthông tin nói riêng và trong trường Đại học Công nghệ - Đại học
Quốc Gia Nội nói chung, đã truyền đạt kiến thức quý báu cho em trong 4 m đại
học.
Em xin được gửi lời cảm ơn tới các anh chị trong công ty Datasection Vietnam
đã hỗ trợ em rất nhiều trong quá trình thực hiện và hoàn thành đề tài của mình.
Em cũng xin được gửi lời cảm ơn tới các anh chị, các bạn trong phòng thí
nghiệm Công nghệ tri thức và khoa học dữ liệu KT-Lab đã giúp em rất nhiều trong
việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khóa luận của mình.
Cuối cùng, con xin tỏ lòng biết ơn hạn đến bố mcông ơn sinh thành
dưỡng dục, chăm lo dành trọn tình yêu thương, luôn động viên, ủng hộ con trên con
đường học tập.
Tôi xin chân thành cảm ơn !
Hà Nội, ngày 25 tháng 04 năm 2016
Sinh viên
Lê Xuân Đạo
v
TÓM TẮT
Phương tiện hội (Social media) hình thành phát triển nhanh chóng (Ví
dụ: Facebook, Twitter) đã cung cấp lượng dữ liệu phong phú liên quan đến sản phẩm,
thị trường đối thủ cạnh tranh rất hữu ích cho các tổ chức, doanh nghiệp. Tuy
nhiên, nguồn dữ liệu phong phú đó cũng chứa đựng sự bất thường mà ở đó các phần t
dữ liệu sự khác biệt lớn so với phần tử khác. Phát hiện bất thường từ dữ liệu
phương tiện hội sẽ m cho dữ liệu đó thực sự trở nên hữu ích hơn khi được phân
tích. Đây chđề nghiên cứu - triển khai ý nghĩa và nhiều kết quả nghiên cứu đã
được công bố như P. Galeano và cộng sự (2006), D. J. Hill và B. S. Minsker (2010), M.
Gao và cộng sự (2013, 2014), v.v.
Khóa luận này đi sâu vào bài toán phát hiện sự bất thường trên mạng hội
Facebook. Dựa trên kết quả nghiên cứu của Manish Gupta cộng sự về phát hiện s
bất thường kỹ thuật phát hiện sự bất thường cho từng loại dữ liệu, về đặc tính, xu
hướng [13]. Trong khóa luận này, tôi đề xuất một mô hình phát hiện trang mạng xã hội
(FanPage) sự bất thường vmức độ tương tác của người dùng trong một khoảng
thời gian, trên dữ liệu một chủ đề nào đó. Để đánh giá thực nghiệm hình phát hiện
bất thường trên tập dữ liệu Fanpage Facebook, tôi sử dụng một tập dữ liệu lớn với hơn
298.000 trang mạng đầu vào, chọn ra chủ đề số ợng trang mạng thu thập được
trên 1000 trang. Với dữ liệu thực nghiệm 1031 pages chủ đề Actor”, mô hình đã phát
hiện ra 26 pages giá trthuộc tính dị thường, khác biệt lớn với các trang mạng còn
lại trong tập dữ liệu.
Từ khóa: khai phá dữ liệu, sự bất thường, phát hiện sự bất thường, phân cụm, phương
tiện xã hội, trang mạng xã hội, Facebook, dòng dữ liệu, dữ liệu không-thời gian.