UBND TỈNH BÌNH DƢƠNG
TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT
NGUYỄN VIỆT THANH HIỀN
ỨNG DỤNG ĐỘ ĐO ENTROPY VÀ FUZZY LOGIC
CHO BÀI TOÁN DỮ LIỆU THƢA
LUẬN VĂN THẠC S
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104
BÌNH DƢƠNG - 2019
UBND TỈNH BÌNH DƢƠNG
TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT
NGUYỄN VIỆT THANH HIỀN
ỨNG DỤNG ĐỘ ĐO ENTROPY VÀ FUZZY LOGIC
CHO BÀI TOÁN DỮ LIỆU THƢA
LUẬN VĂN THẠC S
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104
NGƢỜI HƢỚNG D N HOA HỌC:
TS. HOÀNG MẠNH HÀ
BÌNH DƢƠNG – 2019
i
LỜI CAM ĐOAN
Tôi xin cam đoan đây công trình nghiên cứu của riêng i, c trích
dẫn đều đƣợc sđồng ý của tôi trƣớc khi đƣa vào luận văn. c kết quả trong
luận văn là trung thực ca từng ng bố trong một ng trình khoa học nào
khác.
Bình Dương, tháng 10 năm 2019
Học viên
Nguyễn Việt Thanh Hiền
ii
LỜI CẢM ƠN
Để hoàn thành luận n y, trƣớc hết em xin bày tỏ lòng biết ơn sâu sắc
tới Thầy TS Hoàng Mạnh đã tận tình chỉ dạy và những góp ý quý báu cho
em trong thời gian thực hiện luận văn.
Em xin chân thành cảm ơn ban Lãnh đạo Khoa K Thuật Công Nghệ
Trƣờng Đại học Thủ Dầu Một, Phòng Đào tạo Sau đại học Quý thầy
Trƣờng Đại học Thủ Dầu Một, thành phố Thủ Dầu Một, Tỉnh Bình Dƣơng, đã
tạo điều kiện thuận lợi cho em trong quá trình học tập, nghiên cứu tại trƣờng.
Cảm ơn các bạn Tập thể lớp Cao học CH17HT đã sát cánh cùng nhau chia sẽ
kinh nghiệm học tập quý báu, giúp đỡ nhau vƣợt qua khó khăn.
Cảm ơn Các Thầy, Phòng Công tác Sinh viên trƣờng Đại học Thủ Dầu
Một, khoa Kỹ thuật Công Nghệ đã tận tình chia sẽ trao đổi các thông tin trong
lĩnh vực quản lí sinh viên.
Do thời gian hạn khả năng còn hạn chế nên không tránh khỏi những
thiếu sót, rất mong đƣợc sự đóng góp ý kiến từ Thầy bạn để em luận
văn hoàn chỉnh hơn nữa.
Bình Dương, tháng 10 năm 2019
Học viên
Nguyễn Việt Thanh Hiền
iii
TÓM TẮT LUẬN VĂN
Trong thực tế, khi cơ sở dữ liệu (CSDL) không đáp ứng yêu cầu về độ lớn
của các hình phân tích dữ liệu, giải pháp đƣợc chọn để giải quyết thƣờng
Bootstrap. Với đặc điểm tái tạo dữ liệu từ dữ liệu sẵn sao cho tập dữ liệu mới
vẫn giữ nguyên các tham số thống bản nhƣ kỳ vọng (trung bình), trung vị,
vv... , thuật toán Bootstrap đã thỏa mãn điều kiện về dừng thống kê. Điều y
cơ sở để áp dụng các thuật toán cực tiểu hóa hàm mục tiêu.
Tại thời điểm bắt đầu giải quyết bài toán khôi phục dữ liệu điểm rèn luyện
của sinh viên Đại học Thủ Dầu Một, tôi đã chọn tiếp cận Fuzzy Logic nhƣng
chƣa thành công. Sau đó, vấn đề đƣợc khơi thông nhờ việc coi các điểm bị mất
nhƣ dữ liệu chƣa có. Bài toán khôi phục dữ liệu đƣợc chuyển thành bài toán
tạo mới dữ liệu. Do đó, tại thời điểm đó về mặt trực giác, thể áp dụng
Bootstrap vào trƣờng hợp này.
Để đánh giá đƣợc độ chính xác, tôi giả định một số điểm điểm bị mất
cần phục hồi. Thống kê độ sai lệch giữa điểm thực điểm khôi phục sẽ tiêu
chí đánh giá, so sánh độ tin cy của các giải pháp. Sau khi cài đặt Bootstrap trên
Matlab, tôi tiến hành thực nghiệm trên bộ dữ liệu điểm rèn luyện của sinh viên
lớp D14PM01 và đƣợc kết quả là độ chính xác trung bình đạt 72.59%
Sau đó, tôi phát ra sự tƣơng đƣơng giữa việc tái tạo ngẫu nhiên một mẫu
sao cho tham số thống không đổi của Bootstrap với việc tìm ra mẫu độ
tƣơng đồng cao nhất với mẫu cần khôi phục. Phát hiện y, sau đó đƣợc tôi biểu
diễn dƣới dạng công thức (3.1) trong luận văn này.
Theo hƣớng giải quyết này, tôi gặp vấn đề đó điều kiện để tính đúng độ
tƣơng đồng giữa hai bộ điểm rèn luyện của hai sinh viên.
Khi áp dụng công thức tính độ tƣơng đồng thông qua tính
cos
, tôi nhận
ra là kết quả không chắc chắn đúng vì độ dài mỗi vector không đủ.