ĐẠI HỌC QUỐC GIA NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THU TRANG
HỌC XẾP HẠNG TRONG TÍNH HẠNG ĐỐI TƯỢNG
VÀ TO NHÃN CỤM TÀI LIỆU
Ngành: Công nghệ Thông tin
Chuyên ngành: Hệ thống Thông tin
số: 60 48 05
luận văn thạc
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Quang Thụy
Nội - 2008
Lời cam đoan
Tôi xin cam đoan đây công trình nghiên cứu của bản thân. Các số liệu, kết quả
trình y trong luận văn y trung thực và chưa từng được ai công b trong bất
kỳ công trình luận văn nào trước đây.
Học Viên
Nguyễn Thu Trang
ii
Lời cảm ơn
Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến PGS.TS Quang Thụy -
Người thầy kính yêu, người hướng dẫn, chỉ bảo em tận tình từ những bước nghiên
cứu đầu tiên và hoàn thành luận văn.
Tôi chân thành cảm ơn các thầy trong b môn Các Hệ Thống Thông Tin, và
phòng thí nghiệm SISLAB, nhóm xemina Data Mining và đặc biệt gửi lời cảm ơn
tới ThS.Nguyễn Cẩm Tú đã giúp đỡ, hỗ trợ tôi trong quá trình nghiên cứu, hoàn
thành đề tài.
Tôi cảm ơn các thầy và các cán b của trường Công nghệ đã tạo cho tôi những
điều kiện thuận lợi để học tập và nghiên cứu.
Cuối cùng, xin gửi lời cảm ơn tới gia đình, GB và bạn bè nguồn động viên tinh
thần to lớn với tôi, luôn cổ và tin tưởng tôi.
Nguyễn Thu Trang
iii
Mục lục
MỞ ĐU 1
1 Xếp hạng đối tượng 2
1.1 Giithiu ................................. 2
1.2 Phương pháp PageRank . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Xếphngđitưng............................ 5
1.4 Phương pháp đánh giá xếp hạng . . . . . . . . . . . . . . . . . . . . . 6
1.5 Tngkết.................................. 8
2 Học xếp hạng 9
2.1 Giithiu ................................. 9
2.2 Phương pháp học xếp hạng . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Hồi quy thứ tự và Pairwise . . . . . . . . . . . . . . . . . . 11
2.2.2 Học xếp hạng danh sách Listwise . . . . . . . . . . . . . . . . 13
2.3 Tngkếtchương ............................. 15
3 Xếp hạng trong y tìm kiếm thực thể 16
3.1 y tìm kiếm thực thể . . . . . . . . . . . . . . . . . . . . . . . . . . 17
iv
MỤC LỤC v
3.2 Xếphngthcth ............................ 21
3.2.1 hình Impression . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.2 Nhận t, đánh g hình Impression . . . . . . . . . . . . . 27
3.2.3 hình đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3 Thcnghim ............................... 32
3.3.1 Công cụ sử dụng . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.2 Dliu............................... 33
3.3.3 Kết quả và đánh giá . . . . . . . . . . . . . . . . . . . . . . . 34
3.4 Tngkếtchương ............................. 36
4 Tạo nhãn cụm tài liệu 37
4.1 Giithiu ................................. 37
4.2 Phương pháp lựa chọn nhãn . . . . . . . . . . . . . . . . . . . . . . . 39
4.3 Học xếp hạng nhãn cụm . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3.1 Cácđctrưng........................... 42
4.3.2 Học hàm tính hạng . . . . . . . . . . . . . . . . . . . . . . . . 44
4.4 Thcnghim ............................... 45
4.4.1 Ngundliu........................... 45
4.4.2 Dliuhc ............................ 46
4.4.3 Kết quả và đánh giá . . . . . . . . . . . . . . . . . . . . . . . 47
4.5 Tngkếtchương ............................. 48
Kết luận 49
Tài liệu tham khảo 51
A Dữ liệu 59