ĐẠI HC QUC GIA NI
TRƯNG ĐI HC CÔNG NGH
NGUYN ĐÔNG ĐC
GII PP XP HNG VÀ TÍNH TOÁN SONG
SONG TRÊN NN TNG APACHE SPARK
LUN VĂN THC SĨ H THNG THÔNG TIN
Hà Ni - 2016
ĐẠI HC QUC GIA HÀ NI
TRƯNG ĐI HC CÔNG NGH
NGUYN ĐÔNG ĐC
GII PHÁP XP HNG VÀ TÍNH TOÁN SONG SONG TRÊN NN
TNG APACHE SPARK
Ngành: Công Ngh Thông Tin
Chuyên ngành: H thng Thông Tin
Mã s chuyên ngành: 60480104
LUN VĂN THC SĨ H THNG THÔNG TIN
NGƯI HƯNG DN KHOA HC: PGS. TS. Nguyn Ngc Hóa
Hà Ni 2016
LI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cu ca bn thân. Các s liu, kết qu
trình bày trong lun văn này trung thc chưa tng được ai công b trong bt
k công trình lun văn nào trước đây.”
Ch ký:………………………………………………
PHÊ DUYT CA GIÁO VIÊN HƯNG DN
“Tôi xin cam đoan rng lun án đã đảm bo đúng yêu cu ca chương trình đào Thc sĩ Công
ngh Thông Tin ca trường Đại hc Công Ngh.”
Ch ký:………………………………………………
MỤC LỤC
Li cm ơn ...................................................................................................................... 8!
Danh sách các hình ......................................................................................................... 9!
Danh sách các bng ....................................................................................................... 10!
Danh sách các t viết tt ................................................................................................ xi!
Chương 1.!Gii thiu chung ..................................................................................... 12!
!Động lc nghiên cu ...................................................................................... 12!
!Mc tiêu và ni dung ca lun văn ................................................................ 12!
!T chc ca lun văn ..................................................................................... 13!
Chương 2.!Tng quan v xếp hng ........................................................................... 14!
!Tng quan v xếp hng .................................................................................. 14!
!Mô hình xếp hng da trên đ liên quan ........................................................ 16!
!Mô hình xếp hng da trên đ quan trng ..................................................... 18!
Chương 3.!Hc máy xếp hng .................................................................................. 21!
!Nn tng cơ s ca hc máy .......................................................................... 21!
!Nn tng cơ s ca hc máy xếp hng. .......................................................... 22!
3.2.1!Hướng tiếp cn Pointwise ................................................................. 23!
3.2.2!Hướng tiếp cn Pairwise ......................................................................... 23!
3.2.3!Hướng tiếp cn Listwise ..................................................................... 23!
!Tng kết chương ............................................................................................ 24!
Chương 4.!Gii pháp xếp hng và tính toán song song trên nn apache spark ........ 25!
!Bài toán đt ra ................................................................................................ 25!
!Mô hình đt ra ................................................................................................ 25!
!Apache Spark ................................................................................................. 27!
4.3.1!Tính năng ca Apache Spark .................................................................. 28!
4.3.2!Các thành phn ca Apache Spark ......................................................... 28!
4.3.3!Resilient Distributed Datasets ................................................................. 29!
!Elasticsearch ................................................................................................... 29!
4.4.1!Tính năng tng quát ................................................................................ 30!
4.4.2!Khái nim cơ bn .................................................................................... 30!