
UBND TỈNH BÌNH DƢƠNG
TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT
NGUYỄN VIỆT THANH HIỀN
ỨNG DỤNG ĐỘ ĐO ENTROPY VÀ FUZZY LOGIC
CHO BÀI TOÁN DỮ LIỆU THƢA
LUẬN VĂN THẠC SỸ
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104
BÌNH DƢƠNG - 2019

UBND TỈNH BÌNH DƢƠNG
TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT
NGUYỄN VIỆT THANH HIỀN
ỨNG DỤNG ĐỘ ĐO ENTROPY VÀ FUZZY LOGIC
CHO BÀI TOÁN DỮ LIỆU THƢA
LUẬN VĂN THẠC SỸ
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104
NGƢỜI HƢỚNG D N HOA HỌC:
TS. HOÀNG MẠNH HÀ
BÌNH DƢƠNG – 2019

i
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi, các trích
dẫn đều đƣợc sự đồng ý của tôi trƣớc khi đƣa vào luận văn. Các kết quả trong
luận văn là trung thực và chƣa từng công bố trong một công trình khoa học nào
khác.
Bình Dương, tháng 10 năm 2019
Học viên
Nguyễn Việt Thanh Hiền

ii
LỜI CẢM ƠN
Để hoàn thành luận văn này, trƣớc hết em xin bày tỏ lòng biết ơn sâu sắc
tới Thầy TS Hoàng Mạnh Hà đã tận tình chỉ dạy và có những góp ý quý báu cho
em trong thời gian thực hiện luận văn.
Em xin chân thành cảm ơn ban Lãnh đạo Khoa Kỹ Thuật Công Nghệ
Trƣờng Đại học Thủ Dầu Một, Phòng Đào tạo Sau đại học và Quý thầy Cô
Trƣờng Đại học Thủ Dầu Một, thành phố Thủ Dầu Một, Tỉnh Bình Dƣơng, đã
tạo điều kiện thuận lợi cho em trong quá trình học tập, nghiên cứu tại trƣờng.
Cảm ơn các bạn Tập thể lớp Cao học CH17HT đã sát cánh cùng nhau chia sẽ
kinh nghiệm học tập quý báu, giúp đỡ nhau vƣợt qua khó khăn.
Cảm ơn Các Thầy, cô Phòng Công tác Sinh viên trƣờng Đại học Thủ Dầu
Một, khoa Kỹ thuật Công Nghệ đã tận tình chia sẽ và trao đổi các thông tin trong
lĩnh vực quản lí sinh viên.
Do thời gian có hạn và khả năng còn hạn chế nên không tránh khỏi những
thiếu sót, rất mong đƣợc sự đóng góp ý kiến từ Thầy Cô và bạn bè để em luận
văn hoàn chỉnh hơn nữa.
Bình Dương, tháng 10 năm 2019
Học viên
Nguyễn Việt Thanh Hiền

iii
TÓM TẮT LUẬN VĂN
Trong thực tế, khi cơ sở dữ liệu (CSDL) không đáp ứng yêu cầu về độ lớn
của các mô hình phân tích dữ liệu, giải pháp đƣợc chọn để giải quyết thƣờng là
Bootstrap. Với đặc điểm tái tạo dữ liệu từ dữ liệu có sẵn sao cho tập dữ liệu mới
vẫn giữ nguyên các tham số thống kê cơ bản nhƣ kỳ vọng (trung bình), trung vị,
vv... , thuật toán Bootstrap đã thỏa mãn điều kiện về dừng thống kê. Điều này là
cơ sở để áp dụng các thuật toán cực tiểu hóa hàm mục tiêu.
Tại thời điểm bắt đầu giải quyết bài toán khôi phục dữ liệu điểm rèn luyện
của sinh viên Đại học Thủ Dầu Một, tôi đã chọn tiếp cận Fuzzy Logic nhƣng
chƣa thành công. Sau đó, vấn đề đƣợc khơi thông nhờ việc coi các điểm bị mất
nhƣ là dữ liệu chƣa có. Bài toán khôi phục dữ liệu đƣợc chuyển thành bài toán
tạo mới dữ liệu. Do đó, tại thời điểm đó về mặt trực giác, có thể áp dụng
Bootstrap vào trƣờng hợp này.
Để đánh giá đƣợc độ chính xác, tôi giả định một số điểm là điểm bị mất
cần phục hồi. Thống kê độ sai lệch giữa điểm thực và điểm khôi phục sẽ là tiêu
chí đánh giá, so sánh độ tin cậy của các giải pháp. Sau khi cài đặt Bootstrap trên
Matlab, tôi tiến hành thực nghiệm trên bộ dữ liệu điểm rèn luyện của sinh viên
lớp D14PM01 và đƣợc kết quả là độ chính xác trung bình đạt 72.59%
Sau đó, tôi phát ra sự tƣơng đƣơng giữa việc tái tạo ngẫu nhiên một mẫu
sao cho tham số thống kê không đổi của Bootstrap với việc tìm ra mẫu có độ
tƣơng đồng cao nhất với mẫu cần khôi phục. Phát hiện này, sau đó đƣợc tôi biểu
diễn dƣới dạng công thức (3.1) trong luận văn này.
Theo hƣớng giải quyết này, tôi gặp vấn đề đó là điều kiện để tính đúng độ
tƣơng đồng giữa hai bộ điểm rèn luyện của hai sinh viên.
Khi áp dụng công thức tính độ tƣơng đồng thông qua tính
cos
, tôi nhận
ra là kết quả không chắc chắn đúng vì độ dài mỗi vector không đủ.

