Luận văn Thạc sĩ Kinh tế: Ứng dụng phân cụm dữ liệu trong việc kiểm toán gian lận trên Báo cáo tài chính

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:117

Thêm vào BST

Báo xấu

44
lượt xem 6
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Nghiên cứu về ứng dụng của kỹ thuật phân cụm dữ liệu trong việc kiểm toán gian lận trên BCTC là rất cần thiết. Nó góp phần hỗ trợ kiểm toán viên, công ty kiểm toán và nhà đầu tư trong việc đánh giá khách hàng cũng như danh mục đầu tư tiềm ẩn rủi ro gian lận. Mời các bạn cùng tham khảo.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Kinh tế: Ứng dụng phân cụm dữ liệu trong việc kiểm toán gian lận trên Báo cáo tài chính

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH ------------------------ Trần Thị Phương Thanh ỨNG DỤNG PHÂN CỤM DỮ LIỆU TRONG VIỆC KIỂM TOÁN GIAN LẬN TRÊN BÁO CÁO TÀI CHÍNH LUẬN VĂN THẠC SỸ KINH TẾ TP. Hồ Chí Minh - Năm 2014
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH ------------------------ Trần Thị Phương Thanh ỨNG DỤNG PHÂN CỤM DỮ LIỆU TRONG VIỆC KIỂM TOÁN GIAN LẬN TRÊN BÁO CÁO TÀI CHÍNH Chuyên ngành: Kế toán Mã số: 60340301 LUẬN VĂN THẠC SỸ KINH TẾ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Trần Phước TP. Hồ Chí Minh - Năm 2014
LỜI CAM ĐOAN  Tôi xin cam đoan tất cả nội dung của luận văn này hoàn toàn được hình thành và phát triển từ những quan điểm của chính cá nhân tác giả, dưới sự hướng dẫn khoa học của PGS.TS. Trần Phước. Tất cả các thông tin trích dẫn trong luận văn đã được chỉ rõ nguồn gốc, tất cả số liệu và kết quả trình bày trong luận văn là hoàn toàn trung thực. Tác giả luận văn Trần Thị Phương Thanh
MỤC LỤC TRANG PHỤ BÌA LỜI CAM ĐOAN MỤC LỤC DANH MỤC KÝ HIỆU – CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG BIỂU DANH MỤC HÌNH PHẦN MỞ ĐẦU ........................................................................................................1 1. Tính cấp thiết của đề tài .......................................................................................1 2. Tổng quan về nghiên cứu.....................................................................................2 3. Mục tiêu nghiên cứu ............................................................................................3 4. Đối tượng và phạm vi nghiên cứu .......................................................................4 5. Phương pháp nghiên cứu .....................................................................................4 6. Đóng góp của luận văn ........................................................................................5 7. Kết cấu của luận văn ............................................................................................5 CHƯƠNG 1 CƠ SỞ LÝ LUẬN VỀ PHÂN CỤM DỮ LIỆU VÀ GIAN LẬN BÁO CÁO TÀI CHÍNH............................................................................................6 1.1. Khai phá dữ liệu ................................................................................................6 1.1.1. Tổng quan về khai phá dữ liệu ......................................................................6 1.1.1.1. Định nghĩa ..................................................................................................6 1.1.1.2. Các kỹ thuật tiếp cận trong khai phá dữ liệu ..............................................8 1.1.2. Ứng dụng của khai phá dữ liệu ......................................................................9 1.1.3. Phân cụm dữ liệu .........................................................................................10 1.1.3.1. Định nghĩa ................................................................................................10 1.1.3.2. Yêu cầu của phân cụm dữ liệu ..................................................................10 1.1.3.3. Các đặc trưng cơ bản để phân cụm dữ liệu...............................................11 1.1.3.4. Các phương pháp phân cụm dữ liệu .........................................................12 1.1.3.5. Nhận xét phương pháp phân cụm dữ liệu .................................................15 1.2. Tổng quan tình hình nghiên cứu về phân cụm dữ liệu ...................................16 1.2.1. Tình hình nghiên cứu trên thế giới ..............................................................16 1.2.2. Tình hình nghiên cứu trong nước ................................................................18
1.3. Gian lận ...........................................................................................................19 1.3.1. Tổng quan về gian lận..................................................................................19 1.3.1.1. Định nghĩa ................................................................................................19 1.3.1.2. Lịch sử các công trình nghiên cứu về gian lận .........................................20 1.3.1.3. Các yếu tố của gian lận .............................................................................29 1.3.2. Ảnh hưởng của công nghệ thông tin đến BCTC trong mối quan hệ với gian lận và sai sót ...........................................................................................................30 Kết luận chương 1 ..................................................................................................32 CHƯƠNG 2 THỰC TRẠNG GIAN LẬN BÁO CÁO TÀI CHÍNH VÀ TÌNH HÌNH SỬ DỤNG TỶ SUẤT TÀI CHÍNH ............................................................34 2.1. Sơ lược về thực trạng gian lận BCTC.............................................................34 2.1.1. Thực trạng gian lận BCTC trên thế giới ......................................................34 2.1.2. Thực trạng gian lận BCTC tại Việt Nam .....................................................36 2.1.3. Các thủ thuật gian lận BCTC .......................................................................39 2.2. Thực trạng các quy định về trách nhiệm của kiểm toán viên đối với gian lận BCTC .....................................................................................................................41 2.2.1. Chuẩn mực kiểm toán quốc tế .....................................................................41 2.2.2. Thực trạng các quy định về trách nhiệm của KTV đối với gian lận trên BCTC tại Việt Nam ...............................................................................................44 2.3. Kinh nghiệm của các công ty kiểm toán nước ngoài tại Việt Nam trong việc vận dụng kỹ thuật khai phá dữ liệu trong kiểm toán BCTC ..................................46 2.3.1. KPMG Việt Nam .........................................................................................46 2.3.1.1. Lập kế hoạch kiểm toán ............................................................................47 2.3.1.2. Đánh giá hệ thống kiểm soát nội bộ .........................................................47 2.3.1.3. Thiết kế và thực hiện thử nghiệm cơ bản .................................................48 2.3.1.4. Kết thúc kiểm toán ....................................................................................48 2.3.2. Deloitte Việt Nam ........................................................................................48 2.3.3. Grant Thornton Việt Nam ............................................................................49 2.4. Thực trạng sử dụng các tỷ suất tài chính nhằm phát hiện gian lận trên BCTC trong nghiên cứu trước đây và tại các công ty kiểm toán ở Việt Nam ..................51 2.4.1. Kết hợp giữa tỷ suất tài chính và kỹ thuật phân cụm dữ liệu trong việc phát hiện gian lận trên BCTC trong nghiên cứu trước đây ...........................................51
2.4.2. Thực trạng sử dụng tỷ suất tài chính trong việc phát hiện gian lận trên BCTC tại các công ty kiểm toán ở Việt Nam ........................................................53 2.4.2.1. Theo chương trình kiểm toán mẫu năm 2013 do VACPA ban hành .......54 2.4.2.2. Theo chương trình kiểm toán tại Deloitte Việt Nam ................................55 2.4.2.3. Theo chương trình kiểm toán tại Grant Thornton Việt Nam ....................56 2.4.2.4. Theo chương trình kiểm toán tại KPMG Việt Nam .................................56 2.5. Đánh giá thực trạng ứng dụng tỷ suất tài chính trong việc phát hiện gian lận trên BCTC ..............................................................................................................57 2.5.1. Ưu điểm .......................................................................................................57 2.5.2. Tồn tại ..........................................................................................................57 Kết luận chương 2 ..................................................................................................58 CHƯƠNG 3 ỨNG DỤNG KỸ THUẬT PHÂN CỤM DỮ LIỆU TRONG VIỆC KIỂM TOÁN GIAN LẬN TRÊN BCTC, NHẬN XÉT VÀ KIẾN NGHỊ ........59 3.1. Quan điểm về ứng dụng CNTT trong quá trình kiểm toán BCTC .................59 3.1.1. Hạn chế làm thủ công ..................................................................................59 3.1.2. Ứng dụng triệt để CNTT vào trong quá trình kiểm toán .............................59 3.2. Ứng dụng kỹ thuật phân cụm dữ liệu phân hoạch K-means ..........................60 3.2.1. Quy trình thực hiện phân cụm dữ liệu .........................................................60 3.2.2. Các công cụ thực hiện phân cụm dữ liệu .....................................................60 3.2.3. Thống kê mô tả về mẫu quan sát .................................................................62 3.2.4. Sự khác biệt trị trung bình giữa hai nhóm doanh nghiệp ............................64 3.2.5. Kết quả phân cụm dữ liệu K-Means ............................................................66 3.2.5.1 Tóm tắt kết quả phân tích cụm ..................................................................66 3.2.5.2. Kết quả kiểm định AVOVA .....................................................................69 3.2.5.3. Kết quả phân cụm dữ liệu cuối cùng ........................................................69 3.2.6. Phân tích dữ liệu cụm 2 ...............................................................................70 3.2.6.1. Phân tích tỷ số đòn bẫy tài chính ..............................................................70 3.2.6.2. Phân tích tỷ suất về khả năng sinh lời ......................................................72 3.2.6.3. Phân tích tỷ suất về cơ cấu tài sản ............................................................73 3.2.6.4. Phân tích tỷ số về tính thanh khoản ..........................................................74 3.2.6.5. Phân tích chỉ số về quy mô doanh nghiệp ................................................76 3.2.6.6. Phân tích hệ số về khả năng phá sản ........................................................77
3.3. Nhận xét và kiến nghị áp dụng .......................................................................79 3.3.1. Nhận xét .......................................................................................................79 3.3.2. Các kiến nghị áp dụng .................................................................................80 3.3.2.1. Đối với kiểm toán viên và công ty kiểm toán ...........................................80 3.3.2.2. Đối với Ban quản trị doanh nghiệp ...........................................................82 3.3.2.3. Đối với nhà trường và hiệp hội kiểm toán viên hành nghề ......................83 3.3.2.4. Đối với nhà đầu tư ....................................................................................83 KẾT LUẬN CHUNG ..............................................................................................85 TÀI LIỆU THAM KHẢO PHỤ LỤC
DANH MỤC KÝ HIỆU – CHỮ VIẾT TẮT 1. ACFE Hiệp hội các nhà điều tra gian lận Mỹ 2. AICPA Viện kế toán công chứng Mỹ 3. BCTC Báo cáo tài chính 4. CNTT Công nghệ thông tin 5. DBMS Hệ quản trị cơ sở dữ liệu 6. HOSE Sàn giao dịch chứng khoán Thành phố Hồ Chí Minh 7. HASTC Sàn giao dịch chứng khoán Hà Nội 8. ISA Chuẩn mực kiểm toán Quốc tế 9. KTV Kiểm toán viên 10. KDD Quy trình khai phá tri thức 11. SAS Báo cáo về chuẩn mực kiểm toán 12. VSA Chuẩn mực kiểm toán Việt Nam DANH MỤC CÁC BẢNG BIỂU Bảng 1.1: Báo cáo gian lận theo loại gian lận ...........................................................27 Bảng 1.2: Báo cáo gian lận theo cấp bậc, chức vụ....................................................27 Bảng 1.3: Báo cáo về thời gian phát hiện gian lận....................................................28 Bảng 1.4: Báo cáo về gian lận theo giới tính ............................................................28 Bảng 1.5: Báo cáo về gian lận theo loại hình công ty...............................................28 Bảng 1.6: Báo cáo về gian lận theo quy mô công ty.................................................29 Bảng 2.1: Báo cáo về thủ thuật gian lận ...................................................................39 Bảng 2.2: Thành phần và trọng số của Z-score.........................................................53 Bảng 2.3: Giải thích hệ số Z-score ............................................................................53
DANH MỤC HÌNH Hình 1.1: Quy trình khai phá dữ liệu từ kho dữ liệu ...................................................7 Hình 1.2: Mô phỏng sự phân cụm dữ liệu ................................................................10 Hình 1.3: Minh họa cho hai phương pháp tạo kiến trúc phân cấp cụm ....................14 Hình 1.4: Tam giác gian lận ......................................................................................21 Hình 1.5: Mô hình bàn cân gian lận ..........................................................................23 Hình 1.6: Sơ đồ phân loại gian lận theo ACFE.........................................................26 Hình 1.7: Mối quan hệ cá tính và gian lận ................................................................30 Hình 1.8: Kỹ thuật khai phá dữ liệu nhằm phát hiện gian lận tài chính ...................32 Hình 3.1: Sơ đồ quy trình phân cụm dữ liệu .............................................................60 Hình 3.2: Kết quả thống kê tỷ lệ doanh nghiệp gian lận ...........................................63 Hình 3.3: Đặc điểm của cụm cuối cùng qua các biến quan sát .................................68 Hình 3.4: Tần số đòn bẫy tài chính ...........................................................................71 Hình 3.5: Thống kê trị trung bình đòn bẫy tài chính theo năm .................................71 Hình 3.6: Thống kê trị trung bình tỷ suất sinh lời theo năm .....................................72 Hình 3.7: Tần số tỷ suất sinh lời ...............................................................................73 Hình 3.8: Trị trung bình cơ cấu tài sản theo năm......................................................74 Hình 3.9: Tần số cơ cấu tài sản .................................................................................74 Hình 3.10: Trị trung bình chỉ số thanh khoản theo năm ...........................................75 Hình 3.11: Tần số tỷ số thanh khoản ........................................................................75 Hình 3.12: Quy mô doanh nghiệp theo năm .............................................................76 Hình 3.13: Tần số của chỉ số Quy mô doanh nghiệp ................................................77 Hình 3.14: Trị trung bình hệ số Z-score theo năm ....................................................78 Hình 3.15: Tần số của Z-score theo loại doanh nghiệp ............................................78
1 PHẦN MỞ ĐẦU 1. Tính cấp thiết của đề tài Ngày nay, cùng với sự thay đổi và phát triển không ngừng của công nghệ thông tin nói chung và trong các ngành công nghệ phần cứng, phần mềm, truyền thông và các hệ thống dữ liệu phục vụ cho các ngành kinh tế - xã hội nói riêng, lượng dữ liệu được tạo ra ngày càng lớn và phức tạp. Sự bùng nổ dữ liệu này dẫn đến một yêu cầu cấp thiết là cần có những kỹ thuật và công cụ mới để tự động chuyển đổi lượng dữ liệu khổng lồ kia thành tri thức có ích. Cho đến những năm 90 của thế kỷ trước, hàng loạt các nghiên cứu về tổ chức các kho dữ liệu và kho thông tin, các hệ hỗ trợ ra quyết định, các thuật toán nhận dạng mẫu và phân lớp mẫu, v.v và đặc biệt là khai phá dữ liệu (Data Mining) ra đời. Từ khi ra đời, khai phá dữ liệu đã trở thành một trong những hướng nghiên cứu phổ biến trong lĩnh vực khoa học máy tính và công nghệ tri thức. Nhiều kết quả nghiên cứu đã được ứng dụng vào các lĩnh vực khoa học, kinh tế và xã hội. Khai phá dữ liệu bao gồm nhiều hướng nghiên cứu quan trọng, một trong số đó là phân cụm dữ liệu (Data Clustering). Trong thời gian gần đây, trong lĩnh vực phân cụm dữ liệu, người ta tập trung chủ yếu vào nghiên cứu, phân tích các mô hình dữ liệu phức tạp như web, hình ảnh, v.v và đặc biệt là dữ liệu hỗn hợp. Vấn đề đặt ra là làm thế nào có thể rút trích được thông tin có ích từ kho dữ liệu kinh tế tài chính khổng lồ như hiện nay nhằm hỗ trợ cho các nhà quản trị, các chủ đầu tư, kiểm toán viên cũng như các tổ chức và hội kiểm toán viên hành nghề trong việc quản lý, đánh giá danh mục đầu tư để đưa ra các quyết định, thiết lập chiến lược, thủ tục kiểm toán và ban hành các chính sách, quy định. Gian lận trên Báo cáo tài chính (BCTC) là một trong những chủ đề thời sự hiện nay, đặc biệt là sau sự kiện hàng loạt các công ty hàng đầu trên thế giới bị phá sản vào đầu thế kỷ 21 như Enron, Worldcom, Global Crossing, v.v. Việc phát sinh gian lận trên BCTC ở những công ty có tầm vóc lớn đã làm phát sinh sự quan tâm ngày càng nhiều về tính trung thực và hợp lý của BCTC.
2 Điều này tạo nên thách thức lớn đối với người quản lý công ty cũng như các công ty kiểm toán và các kiểm toán viên (KTV). Cùng với sự phát triển kinh tế thì số lượng các nghiệp vụ phát sinh của các doanh nghiệp ngày càng nhiều và phức tạp. Điều này đã gây không ít khó khăn cho các doanh nghiệp kiểm toán, nhà quản lý trong việc phân tích dữ liệu, phát hiện hay ngăn chặn gian lận trên BCTC. Sự ra đời của kỹ thuật khai phá dữ liệu (“Data Mining”) đã mở ra hướng giải quyết hữu hiệu cho các doanh nghiệp. Data mining như là một công nghệ tri thức giúp khai phá những thông tin hữu ích từ những kho dữ liệu được tích trữ trong suốt quá trình hoạt động của một công ty hay tổ chức nào đó. Tại Việt Nam hiện nay, công nghệ “data mining” chưa phổ biến. Thế nhưng các sự kiện như công ty Bông Bạch Tuyết (BBT), công ty Cổ phần Dược Viễn Đông (DVD) có thể không phải là những trường hợp duy nhất thiếu minh bạch dẫn đến thiệt hại cho các nhà đầu tư. Chính vì vậy, việc nghiên cứu ứng dụng của công nghệ “Data Mining” vào việc kiểm toán gian lận trên BCTC là thực sự cần thiết. Tuy nhiên, do hạn chế về thời gian, luận văn chỉ đi sâu vào việc xem xét “Ứng dụng phân cụm dữ liệu trong việc kiểm toán gian lận trên Báo cáo tài chính”. 2. Tổng quan về nghiên cứu Tổng quan về khai phá dữ liệu: Khai phá dữ liệu (“KPDL”) là quá trình tìm kiếm các mẫu mới, những thông tin tiềm ẩn mang tính dự đoán trong các khối dữ liệu lớn cho các đơn vị, tổ chức, doanh nghiệp, v.v. Từ đó làm thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranh của doanh nghiệp này và doanh nghiệp khác. Tri thức mà khai phá dữ liệu mang lại giúp cho các doanh nghiệp kịp thời đưa ra các quyết định hay trả lời các câu hỏi trong sản xuất, kinh doanh cũng như hoạt động đầu tư. Điều mà trước đây phần lớn các doanh nghiệp mất rất nhiều thời gian và nhân lực. Giáo sư Tom Mitchell (1999)[15] đã đưa ra định nghĩa về khai phá dữ liệu như sau: “KPDL là việc sử dụng dữ liệu lịch sử để khám phá những quy tắc và cải thiện những quyết định trong tương lai”.
3 Tiến sĩ Fayyad (1996)[16] đã phát biểu: “KPDL thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trước đây chưa biết và có khả năng hữu ích, dưới dạng quy luật, ràng buộc, quy tắc trong cơ sở dữ liệu”. Tổng quan về gian lận trên BCTC: Gian lận với nghĩa hẹp là hành vi thiếu trung thực, dối trá, mánh khóe nhằm lừa gạt người khác. Theo nghĩa rộng gian lận là hành vi không hợp pháp nhằm lừa gạt, dối trá để thu được lợi ích nào đó. Theo chuẩn mực kiểm toán Việt Nam số 240 (VSA 240) [1], gian lận là hành vi cố ý do một hay nhiều người trong Ban quản trị, Ban Giám đốc, các nhân viên hoặc bên thứ ba thực hiện bằng các hành vi gian dối để thu lợi bất chính hoặc bất hợp pháp. Theo công trình nghiên cứu gian lận của Hiệp hội các nhà điều tra gian lận Mỹ (ACFE), có ba loại gian lận như sau: o Biển thủ tài sản: xảy ra khi nhân viên biển thủ tài sản của tổ chức. o Tham ô: xảy ra khi người quản lý lợi dụng trách nhiệm và quyền hạn của họ tham ô tài sản của công ty hay hành động trái ngược với nghĩa vụ mà họ đã cam kết với tổ chức để làm lợi cho bản thân hay một bên thứ ba. o Gian lận trên BCTC: là trường hợp các thông tin trên BCTC bị bóp méo, phản ánh không trung thực tình hình tài chính một cách cố ý nhằm lừa gạt người sử dụng thông tin. 3. Mục tiêu nghiên cứu Mục tiêu của luận văn là nghiên cứu vận dụng kỹ thuật khai phá dữ liệu (Data Mining) nhằm kiểm toán gian lận trên BCTC, cụ thể như sau: o Hệ thống hóa cơ sở lý luận về khai phá dữ liệu và phân cụm dữ liệu; o Hệ thống hóa cơ sở lý luận về gian lận trong kiểm toán BCTC; o Tóm lược về thực trạng gian lận BCTC, các quy định về trách nhiệm của kiểm toán viên trong quá trình kiểm toán BCTC trên thế giới và tại Việt Nam. Đồng thời trình bày về thực trạng ứng dụng tỷ suất tài chính trong việc phát hiện gian lận trên BCTC tại các công ty kiểm toán; o Vận dụng thành quả nghiên cứu về kỹ thuật phân cụm dữ liệu của Gupta và Gill (2012)[13] trên các tỷ suất tài chính, tiến hành phân cụm dữ liệu trên báo cáo tài
4 chính của các doanh nghiệp niêm yết tại Việt Nam. Sau đó thực hiện đối chiếu với tỷ suất tài chính của các doanh nghiệp gian lận được công bố chính thức trong thời gian qua nhằm phát hiện các doanh nghiệp có dấu hiệu gian lận trên BCTC; o Từ kết quả nghiên cứu trên, tác giả sẽ nhận xét và đưa ra các kiến nghị áp dụng đối với kiểm toán viên, doanh nghiệp kiểm toán; ban quản trị doanh nghiệp; nhà trường & hội kiểm toán viên hành nghề Việt Nam và các nhà đầu tư. 4. Đối tượng và phạm vi nghiên cứu Đối tượng nghiên cứu: kỹ thuật phân cụm dữ liệu (K-means) trên tỷ suất tài chính của các công ty niêm yết. Phạm vi nghiên cứu: - Thời gian nghiên cứu: số liệu thứ cấp trên các BCTC của các công ty niêm yết được thu thập từ năm 2010 đến 2012; - Không gian nghiên cứu: báo cáo tài chính của các doanh nghiệp niêm yết trên sàn giao dịch chứng khoán Thành phố Hồ Chí Minh (HOSE) và Hà Nội (HASTC); Giới hạn của luận văn: luận văn chỉ nghiên cứu một mảng của khai phá dữ liệu đó là kỹ thuật phân cụm dữ liệu (K-means) được thực hiện trên tỷ suất tài chính của các công ty niêm yết trên sàn HOSE và HASTC. 5. Phương pháp nghiên cứu Phương pháp nghiên cứu định tính: Thông qua việc tổng hợp dữ liệu thứ cấp (tổng hợp từ các sách, giáo trình, internet, các nghiên cứu trước đây) để phân tích, nội suy nhằm đưa ra các yếu tố và tỷ suất tài chính thường dùng để phân tích gian lận trên BCTC. Phương pháp nghiên cứu định lượng: Với dữ liệu tài chính từ BCTC của các công ty niêm yết trên sàn giao dịch chứng khoán TP.HCM (HOSE) và Hà Nội (HASTC), dùng kiểm định trung bình hai mẫu độc lập (Independent sample t-test) và phân cụm dữ liệu để phát hiện doanh nghiệp với các tỷ suất tài chính gần giống với tỷ suất tài chính của các doanh nghiệp gian lận được công bố chính thức. Từ đó, tác giả đưa ra các kiến nghị cũng như hạn chế và hướng nghiên cứu tiếp theo.
5 6. Đóng góp của luận văn Nghiên cứu về ứng dụng của kỹ thuật phân cụm dữ liệu trong việc kiểm toán gian lận trên BCTC là rất cần thiết. Nó góp phần hỗ trợ kiểm toán viên, công ty kiểm toán và nhà đầu tư trong việc đánh giá khách hàng cũng như danh mục đầu tư tiềm ẩn rủi ro gian lận. Ngoài ra, nghiên cứu còn giúp cho Ban quản trị doanh nghiệp; Nhà trường & Hội kiểm toán viên hành nghề Việt Nam nhận thức rõ hơn về khai phá dữ liệu, cụ thể là phân cụm dữ liệu. Từ đó có kế hoạch huấn luyện và đào tạo cho các kiểm toán viên nội bộ cũng như sinh viên và các kiểm toán viên hành nghề. 7. Kết cấu của luận văn o Chương 1: Cơ sở lý luận về phân cụm dữ liệu (“Clustering”) và gian lận trên BCTC. Chương này trình bày khái quát về khai phá dữ liệu, phân cụm dữ liệu và gian lận trên BCTC. Tác giả cũng đồng thời trình bày các nghiên cứu trước đây về phân cụm dữ liệu trong mối quan hệ với gian lận trên BCTC, các tỷ suất tài chính được sử dụng là yếu tố đầu vào cho quá trình phân cụm dữ liệu. o Chương 2: Thực trạng gian lận BCTC và tình hình sử dụng tỷ suất tài chính nhằm phát hiện gian lận trên BCTC. Chương này trình bày về thực trạng gian lận BCTC trên thế giới và tại Việt Nam, quy định về trách nhiệm của KTV đối với gian lận BCTC. Trong đó, tác giả cũng sẽ đồng thời trình bày về kinh nghiệm của các công ty kiểm toán nước ngoài tại Việt Nam trong việc vận dụng kỹ thuật khai phá dữ liệu trong kiểm toán BCTC và tình hình sử dụng tỷ suất tài chính trong quá trình kiểm toán cũng như trong các nghiên cứu trước đây. Từ đó rút ra ưu điểm và tồn tại của việc vận dụng kỹ thuật khai phá dữ liệu và tỷ suất tài chính trong quá trình kiểm toán BCTC hiện nay. o Chương 3: Ứng dụng kỹ thuật phân cụm dữ liệu trong việc kiểm toán gian lận trên BCTC, nhận xét và kiến nghị áp dụng. Chương này sẽ trình bày về cách chọn biến quan sát, phương pháp kiểm định và kỹ thuật phân cụm dữ liệu. Từ đó tác giả phân tích, nhận xét kết quả phân cụm dữ liệu và gợi ý các kiến nghị áp dụng.
6 CHƯƠNG 1 CƠ SỞ LÝ LUẬN VỀ PHÂN CỤM DỮ LIỆU VÀ GIAN LẬN BÁO CÁO TÀI CHÍNH 1.1. Khai phá dữ liệu 1.1.1. Tổng quan về khai phá dữ liệu 1.1.1.1. Định nghĩa Khoảng hơn một thập kỷ trở lại đây, khoa học công nghệ không ngừng phát triển và lượng thông tin được lưu trữ trên các thiết bị điện tử không ngừng tăng lên. Sự tích lũy dữ liệu này xảy ra với tốc độ bùng nổ. Một cách hình ảnh là chúng ta đang “ngập” trong dữ liệu nhưng lại “đói tri thức”. Câu hỏi đặt ra là liệu chúng ta có thể khai thác gì từ “núi” dữ liệu ấy không? “Necessity is the mother of invention” (Plato, 348 TCN) – Data mining ra đời như một hướng giải quyết hữu hiệu cho câu hỏi vừa đặt ra ở trên. Khá nhiều định nghĩa về Data mining và sẽ được đề cập sau, tuy nhiên có thể hiểu rằng Data mining như là một công nghệ tri thức giúp khai thác những thông tin hữu ích từ những kho dữ liệu được tích trữ trong suốt quá trình hoạt động của một công ty hay tổ chức nào đó. Khai phá dữ liệu được định nghĩa như quá trình chắt lọc hay khai phá tri thức từ một lượng lớn dữ liệu. Thuật ngữ “data mining” chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một lượng lớn dữ liệu thô. “Data mining” được ví dụ như việc “đãi cát tìm vàng” trong một tập hợp lớn các dữ liệu cho trước. Hiện nay có nhiều thuật ngữ được sử dụng tương tự với “data mining” như “knowledge mining” (khai phá tri thức), “knowledge extraction” (chắt lọc tri thức), “data/pattern analysis” (phân tích dữ liệu/mẫu), “data dredging” (nạo vét dữ liệu)…(Han và Kamber, 2006) [11]. Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tìm ẩn trong tập dữ liệu đó. Khai phá dữ liệu là một bước trong 7 bước của quá trình khai phá dữ liệu (Knowledge Discovery in Database - KDD) và KDD bao gồm 7 quá trình khác nhau theo thứ tự như sau:
7 Hình 1.1: Quy trình khai phá dữ liệu từ kho dữ liệu (Nguồn: Han and Kamber, 2006 [11]. Data mining: Concepts and Techniques) 1. Làm sạch dữ liệu (data cleaning): loại bỏ nhiễu và các dữ liệu không cần thiết; 2. Tích hợp dữ liệu (data integration): quá trình hợp nhất dữ liệu thành những kho dữ liệu (data warehouse) sau khi đã làm sạch và tiền xử lý (data preprocessing); 3. Trích chọn dữ liệu (data selection): trích chọn dữ liệu từ những kho dữ liệu lớn ban đầu theo những tiêu chí nhất định; 4. Biến đổi dữ liệu (data transformation): là bước chuẩn hóa và làm mịn dữ liệu để đưa dữ liệu về dạng thuận lợi nhất nhằm phục vụ cho các kỹ thuật khai phá ở bước sau; 5. Khai phá dữ liệu (data mining): là bước áp dụng các kỹ thuật phân tích nhằm khai phá dữ liệu, trích chọn được những mẫu thông tin, những mối liên hệ đặc biệt trong dữ liệu. Đây được xem là bước quan trọng và tốn thời gian nhất của toàn quá trình KDD; 6. Đánh giá mẫu (pattern evaluation): quá trình đánh giá các kết quả tìm được qua các thước đo nào đó; 7. Biểu diễn tri thức (knowledge presentation): quá trình này sử dụng các kỹ thuật để biểu diễn và thể hiện trực quan cho người sử dụng.
8 1.1.1.2. Các kỹ thuật tiếp cận trong khai phá dữ liệu Nếu đứng trên quan điểm của học máy (Machine learning) thì các kỹ thuật trong Data mining bao gồm: Học có giám sát (Supervised learning): Là quá trình gán nhãn lớp cho các phần tử trong cơ sở dữ liệu dựa trên một tập các ví dụ huấn luyện và các thông tin về nhãn lớp đã biết. Học không có giám sát (Unsupervised learning): Là quá trình phân chia một tập dữ liệu thành các lớp hay là cụm dữ liệu tương tự nhau mà chưa biết trước các thông tin về lớp hay tập các ví dụ huấn luyện. Học nửa giám sát (Semi – Supervised learning): Là quá trình phân chia một tập dữ liệu thành các lớp dựa trên một tập nhỏ các ví dụ huấn luyện và một số các thông tin về một số nhãn lớp đã biết trước. Nếu căn cứ vào lớp các bài toán cần giải quyết thì Data mining bao gồm các kỹ thuật sau: Phân lớp và dự đoán (Classification & Prediction) Là việc xếp các đối tượng vào một trong các lớp đã biết trước. Phân lớp là lĩnh vực rất quan trọng trong khai phá dữ liệu, phân lớp còn được gọi là học có giám sát, hướng tiếp cận này thường được sử dụng một số kỹ thuật của học máy như cây quyết định (decision tree), mạng nơ ron nhân tạo (neural network), v.v Phân tích luật kết hợp (Association rule) Luật kết hợp là luật biểu diễn tri thức ở dạng tương đối đơn giản. Mục tiêu của phương pháp này là phát hiện và đưa ra các mối quan hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu. Luật kết hợp có khả năng ứng dụng trong nhiều lĩnh vực khác nhau như kinh doanh, y học, tài chính, thị trường chứng khoán, phân tích quyết định, phân tích thị trường, v.v. Tuy luật kết hợp là một dạng luật khá đơn giản nhưng lại mang rất nhiều ý nghĩa. Thông tin mà dạng luật này đem lại rất có lợi trong các hệ hỗ trợ ra quyết định. Tìm kiếm được những luật kết hợp đặc trưng và mang nhiều thông tin từ cơ sở dữ liệu tác nghiệp là một trong những hướng tiếp cận chính trong lĩnh vực khai phá dữ liệu. Khai thác mẫu tuần tự (sequential/temporal patterns) Tương tự như khai thác luật kết hợp nhưng có thêm tính thứ tự và tính thời gian.
9 Một luật mô tả mẫu tuần tự có dạng tiêu biểu X  Y phản ánh sự xuất hiện của biến cố X sẽ dẫn đến việc xuất hiện kế tiếp biến cố Y. Hướng tiếp cận này có tính dự báo cao. Phân nhóm – đoạn (Clustering/Segmentation) Mục tiêu chính của việc phân nhóm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các nhóm sao cho mức độ tương tự giữa các đối tượng trong cùng một nhóm là lớn nhất và mức độ tương tự giữa các đối tượng nằm trong các nhóm khác nhau là nhỏ nhất. Các nhóm có thể tách nhau hoặc phân cấp gối lên nhau và số lượng các nhóm là chưa biết trước. Một đối tượng có thể vừa thuộc nhóm này, nhưng cũng có thể vừa thuộc nhóm khác. Không giống như phân lớp dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu. Vì thế có thể xem phân nhóm dữ liệu là một cách học bằng quan sát (learning by observation), trong khi phân lớp dữ liệu là học bằng ví dụ (learning by example). Phân nhóm còn được gọi là học không có giám sát (unsupervised learning). Phân nhóm dữ liệu được sử dụng nhiều trong các ứng dụng về phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang web, v.v. Ngoài ra phân nhóm dữ liệu còn có thể được sử dụng như một bước tiền xử lý cho các thuật toán khai phá dữ liệu khác. 1.1.2. Ứng dụng của khai phá dữ liệu Tại Việt Nam, khai phá dữ liệu là hướng tiếp cận khá mới. Tuy nhiên đây là lĩnh vực thu hút được rất nhiều sự quan tâm của các nhà nghiên cứu trên thế giới và nó đã phát triển nhờ vào những ứng dụng của nó như: o Phân tích dữ liệu và ra quyết định (data analysis & decision support); o Điều trị y học (medical treatment); o Tin – sinh (bio-informations); o Tài chính và thị trường chứng khoán (finance & stock market); o Bảo hiểm (insurance); o Nhận dạng (pattern recognition); o Marketing: xác định nhóm khách hàng (khách hàng tiềm năng, khách hàng giá trị, phân loại và dự đoán hành vi khách hàng, v.v) sử dụng sản phẩm hay dịch vụ của công ty để công ty có chiến lược kinh doanh hiệu quả hơn.
10 Như vậy, khai phá dữ liệu đã được ứng dụng trong nhiều lĩnh vực kinh tế, xã hội, y học, khoa học, v.v. Tuy nhiên, ứng dụng những kỹ thuật này trong lĩnh vực kiểm toán BCTC còn rất hạn chế. Khai phá dữ liệu có thể giúp khám phá kiến thức tiềm ẩn, mối quan hệ không ngờ của các dữ liệu trong khối dữ liệu khổng lồ. Với chức năng này kỹ thuật khai phá dữ liệu được ứng dụng để kiểm toán gian lận và nhầm lẫn trên BCTC. Để thực hiện chức năng này kỹ thuật khai phá dữ liệu mô tả được sử dụng. Kỹ thuật này dễ dàng ứng dụng trên khối dữ liệu chưa được biết trước. Kỹ thuật khai phá dữ liệu mô tả bao gồm luật liên kết, phân tích cụm và kỹ thuật phát hiện bất thường. Trong phạm vi luận văn, tác giả đi sâu phân tích kỹ thuật phân cụm dữ liệu. 1.1.3. Phân cụm dữ liệu 1.1.3.1. Định nghĩa Phân cụm dữ liệu là tên của nhóm kỹ thuật đa biến có mục tiêu chính là phân loại các đơn vị dựa vào một số các đặc tính của chúng. Các kỹ thuật này nhận diện và phân loại các đối tượng hay các biến sao cho các đối tượng trong cùng một cụm tương tự nhau xét theo các đặc tính được chọn để nghiên cứu. Nội bộ trong các cụm sẽ đồng nhất cao trong khi giữa các cụm có sự khác biệt lớn. Các cụm được gom có chất lượng cao khi chúng tương tự cao trong lớp (intra-class) và tương tự thấp giữa các lớp (inter-class). Điều đó có nghĩa là các đối tượng trong cùng một nhóm có sự giống nhau hoặc gần giống nhau càng nhiều thì chất lượng gom cụm sẽ càng cao. Hình 1.2: Mô phỏng sự phân cụm dữ liệu (Nguồn: Tác giả tổng hợp và mô phỏng) 1.1.3.2. Yêu cầu của phân cụm dữ liệu Việc thiết kế và sắp xếp các cụm cần thỏa mãn các yêu cầu sau đây:
11  Yêu cầu về tính sẵn sàng cao (Availability): các tài nguyên mạng phải luôn sẵn sàng trong khả năng cao nhất để cung cấp và phục vụ cho người dùng cuối cùng và giảm thiểu sự ngưng hoạt động hệ thống ngoài ý muốn;  Yêu cầu về độ tin cậy cao (Realiability): độ tin cậy của cụm được hiểu là khả năng giảm thiểu tần số xảy ra sự cố và nâng cao khả năng chịu đựng sai sót của hệ thống;  Yêu cầu về khả năng mở rộng được (Scalability): hệ thống phải có khả năng dễ dàng cho việc nâng cấp, mở rộng tương lai. Việc nâng cấp mở rộng bao hàm cả việc thêm các thiết bị, máy tính vào hệ thống để nâng cao chất lượng dịch vụ và thêm các tài nguyên mạng khác. Ba yêu cầu trên được gọi tắt là RAS (Realiability – Availability – Scalability), những hệ thống đáp ứng ba yêu cầu trên gọi là hệ thống RAS. 1.1.3.3. Các đặc trưng cơ bản để phân cụm dữ liệu Chọn lựa đặc trưng: các đặc trưng phải được lựa chọn một cách hợp lý để có thể “mã hóa” nhiều nhất thông tin liên quan đến công việc quan tâm. Mục tiêu chính là giảm thiểu sự dư thừa thông tin giữa các đặc trưng. Các đặc trưng cần được xử lý trước khi tiến hành các bước sau. Chọn độ gần gũi: đây là độ đo chỉ ra mức độ tương tự hay không tương tự giữa hai vectơ đặc trưng. Phải đảm bảo rằng tất cả các vectơ đặc trưng góp phần như nhau trong việc tính toán độ đo gần gũi và không có đặc trưng nào át đặc trưng nào. Điều này được đảm nhận bởi quá trình tiền xử lý. Tiêu chuẩn phân cụm: điều này phụ thuộc vào giải thích của chuyên gia cho thuật ngữ “dễ nhận thấy” dựa vào loại của các cụm được chuyên gia cho rằng ẩn dưới tập dữ liệu. Thuật toán phân cụm: cần lựa chọn một sơ đồ thuật toán riêng biệt nhằm làm sáng tỏ cấu trúc của tập dữ liệu. Công nhận kết quả: khi đã có kết quả phân loại thì ta phải kiểm tra tính đúng đắn của nó. Điều này thường được thực hiện bởi việc dùng các kiểm định phù hợp.