
ĐẠI HỌC KINH TẾ TP.HCM
KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH
TIỂU LUẬN
BỘ MÔN KHOA HỌC DỮ LIỆU
ĐỀ TÀI: PHÂN TÍCH DỮU LIỆU CỦA CÔNG TY KIỂM TOÁN
VỚI CÔNG CỤ ORANGE
Giảng viên hướng dẫn : Trương Việt Phương
Khóa : 47
Năm học : 2022-2023
Mã lớp học phần : 22C1INF50905959
Nhóm sinh viên thực hiện :
Giang Quốc Hưng
Phạm Trường Hưng
Phan Thị Ngọc Huyền
Nguyễn Thị Tố Như
Võ Nguyễn Mỹ Dung
Thành phố Hồ Chí Minh, ngày 10 tháng 10 năm 2022

BẢN PHÂN CÔNG CÁC THÀNH VIÊN
STT HỌ TÊN NHIỆM VỤ ĐÁNH GIÁ
1 Giang Quốc Hưng Tìm bộ dữ liệu,mô tả các biến,xử
lí dữ liệu trên Orange, Excel,nhận
xét
2 Phạm Trường Hưng Tìm bộ dữ liệu,mô tả các biến, xử
lí dữ liệu trên Orange, Excel,nhận
xét
3 Nguyễn Thị Tố Như Tìm bộ dữ liệu,mô tả các biến, xử
lí dữ liệu trên Orange, Excel,nhận
xét
4 Phan Thị Ngọc Huyền Cơ sở lý thuyết, kết luận và tổng
hợp trên Word
5 Võ Nguyễn Mỹ Dung Cơ sở lý thuyết, kết luận và tổng
hợp trên Word

Contents
LỜI MỞ ĐẦU...........................................................................................................................................1
LỜI CẢM ƠN...........................................................................................................................................2
DANH MỤC ẢNH.....................................................................................................................................3
CHƯƠNG 1:............................................................................................................................................4
Tổng quan về khoa học dữ liệu và đề tài nghiên cứu.............................................................................4
1.1. Giới thiệu về KHDL:...........................................................................................................4
1.2. Giới thiệu về đề tài:..............................................................................................................4
1.2.1. Lý do chọn đề tài:.........................................................................................................4
1.2.2. Mục tiêu nghiên cứu:....................................................................................................5
1.2.3. Phương pháp thực hiện:...............................................................................................5
CHƯƠNG 2:............................................................................................................................................6
Tổng quan về chương trình Orange và các phương pháp sử dụng.........................................................6
2.1. Tổng quan về phần mềm Orange:.......................................................................................6
2.2. Tổng quan về các phương pháp sử dụng:...........................................................................6
2.2.1. Tiền xử lý dữ liệu..........................................................................................................6
2.2.2. Phân cụm dữ liệu:........................................................................................................10
2.2.3. Phân lớp dữ liệu ( Classification):.............................................................................14
CHƯƠNG 3: MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT.....................................................................................17
CHƯƠNG 4: KẾT QUẢ THỰC HIỆN........................................................................................................19
4.1. Tiền xử lý:...........................................................................................................................19
4.1.1. Làm sạch dữ liệu:........................................................................................................19
4.1.2. Loại bỏ biến không phù hợp:.....................................................................................21
4.2. Phân cụm:...........................................................................................................................23
4.2.1. Phương pháp Hierarchical clustering:......................................................................24
4.2.2. Phương pháp K-Means:.............................................................................................26
4.2.3. Trích xuất dữ liệu và So sánh với nhãn hiện có:.......................................................28
4.3. Phân lớp dữ liệu:.................................................................................................................35
4.3.1. Xây dựng mô hình:.....................................................................................................35
4.3.2. Sử dụng mô hình:........................................................................................................35
4.4. Dự báo:................................................................................................................................40
4.4.1. Lấy mẫu dữ liệu:.........................................................................................................40
4.4.2. Tiến hành dự báo:.......................................................................................................41
4.5. Đánh giá kết quả nghiên cứu:............................................................................................42

CHƯƠNG 5:..........................................................................................................................................43
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN......................................................................................................43
5.1. Kết luận:..............................................................................................................................43
5.2. Hướng phát triển:...............................................................................................................44
5.2.1. Nguyên nhân dẫn đến gian lận trong báo cáo tài chính:..........................................44
5.2.2. Một số đề xuất:............................................................................................................44
TÀI LIỆU THAM KHẢO...........................................................................................................................45

LỜI MỞ ĐẦU
Cùng với sự phát triển của khoa học kĩ thuật và quá trình chuyển đổi số, khi mà
dữ liệu tồn tại khắp nơi và đang ngày càng trở nên đa dạng, phức tạp, ngành khoa học
rút trích và phân tích dữ liệu xuất hiện và dần trở thành một trong những lĩnh vực đóng
vai trò quan trọng trong thời đại ngày nay. Song song với đó, nhiều doanh nghiệp, tổ
chức ở nhiều lĩnh vực đang dành sự quan tâm đến việc tìm ra những công cụ, mô hình
phân tích, xử lý dữ liệu một cách chính xác, góp phần gia tăng năng suất và hiệu quả
công việc. Do đó, việc ứng dụng khoa học dữ liệu cùng các kĩ thuật công nghệ là vô
cùng cần thiết, đặc biệt là trong lĩnh vực kiểm toán – lĩnh vực đòi hỏi sự trung thực và
chính xác cao.
Những hoạt động gian lận tài chính là một vấn đề nghiêm trọng cản trở sự tồn
tại và phát triển của các doanh nghiệp. Chính vì thế, chúng tôi lựa chọn bộ dữ liệu về
External Audit của một công ty kiểm toán Ấn Độ và phân tích đánh giá bằng công cụ
Orange hướng đến xây dựng mô hình phân loại có thể dự đoán công ty gian lận
trên cơ sở các yếu tố rủi ro hiện tại và lịch sử nhằm giảm tối đa khả năng xảy ra
sai sót trọng yếu trên báo cáo tài chính . Chúng tôi sẽ làm rõ vấn đề trên ở bài tiểu
luận này.
1

