Nghiên cứu chất lượng báo cáo tài chính trên quan điểm kiểm toán tiếp cận theo phương pháp học máy

Chia sẻ: Lệ Minh Vũ | Ngày: | Loại File: PDF | Số trang:24

Thêm vào BST

Báo xấu

5
lượt xem 1
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài báo "Nghiên cứu chất lượng báo cáo tài chính trên quan điểm kiểm toán tiếp cận theo phương pháp học máy" xem xét ảnh hưởng và tầm quan trọng của các nhân tố đến chất lượng báo cáo tài chính (BCTC) trên quan điểm kiểm toán của các doanh nghiệp niêm yết trên thị trường chứng khoán Việt Nam. Sử dụng các mô hình hồi quy và thuật toán học máy trong việc nghiên cứu với dữ liệu tại các doanh nghiệp trong giai đoạn 2014-2020. Mời các bạn cùng tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Nghiên cứu chất lượng báo cáo tài chính trên quan điểm kiểm toán tiếp cận theo phương pháp học máy

NGHIÊN CỨU CHẤT LƯỢNG BÁO CÁO TÀI CHÍNH TRÊN QUAN ĐIỂM KIỂM TOÁN TIẾP CẬN THEO PHƯƠNG PHÁP HỌC MÁY PGS.TS. Đặng Ngọc Hùng1 Đậu Hoàng Hưng Nguyễn Viết Hà Nguyễn Đức Quang Đặng Thị Hậu Tóm tắt Bài báo xem xét ảnh hưởng và tầm quan trọng của các nhân tố đến chất lượng báo cáo tài chính (BCTC) trên quan điểm kiểm toán của các doanh nghiệp niêm yết trên thị trường chứng khoán Việt Nam. Sử dụng các mô hình hồi quy và thuật toán học máy trong việc nghiên cứu với dữ liệu tại các doanh nghiệp trong giai đoạn 2014 - 2020. Chúng tôi đã phát hiện các nhân tố khả năng sinh lời của doanh nghiệp, quy mô doanh nghiệp và quy mô của HĐQT có quan hệ thuận chiều đến chất lượng BCTC, trái lại nhân tố về chính sách cổ tức, quyền sở hữu nhà nước và thời gian niêm yết của doanh nghiệp có quan hệ ngược chiều. Kết quả nghiên cứu cho thấy thuật toán GradientBoosting có hiệu suất dự báo tốt nhất, bên cạnh đó các nhân tố có tầm quan trọng nhất đến chất lượng BCTC bao gồm khả năng sinh lời được đo lường bằng lợi nhuận sau thuế trên tổng tài sản, quyền sở hữu nhà nước, quy mô doanh nghiệp. Dựa vào kết quả nghiên cứu, nhóm tác giả đưa ra một số khuyến nghị đối với nhà đầu tư, đối với doanh nghiệp và nhà hoạch định chính sách. Từ khoá: Chất lượng báo cáo tài chính; Chênh lệch lợi nhuận; Ý kiến kiểm toán; Học máy. 1. Giới thiệu Thông tin BCTC là một trong những kênh thông tin mà các công ty niêm yết được yêu cầu cung cấp trên thị trường chứng khoán. Chất lượng BCTC là yếu tố quyết định cho thị trường tài chính hiệu quả. Trong thị trường chứng khoán, Công ty niêm yết là bên cung cấp thông tin, nhà đầu tư là đối tượng chủ yếu tiếp nhận và sử dụng các thông tin này trong quá trình ra quyết định của mình. Tuy nhiên, thông tin được trình bày và công bố như thế nào để đáp ứng được nhu cầu người sử dụng vẫn còn khoảng cách khá lớn giữa mong đợi và thực tế. Chất lượng BCTC phụ thuộc vào chất lượng của quá trình tạo lập, trình bày và công bố của các công ty niêm yết, quá trình này chịu ảnh hưởng của nhiều yếu tố bên trong lẫn bên ngoài doanh nghiệp. 1 Trường Đại học Công nghiệp Hà Nội, Email: dangngochung@haui.edu.vn 29
Hiện nay trên thế giới, khái niệm cũng như việc đo lường chất lượng BCTC được các nhà nghiên cứu nhìn nhận ở nhiều góc độ khác nhau. Hầu hết các nghiên cứu đều đo lường chất lượng BCTC các gián tiếp thông qua các hành vi như: quản trị lợi nhuận (Earning Managenent), công bố lại BCTC (Financial Restatement), hành vi gian lận BCTC (Financial Statement Fraud) (Schipper & Vincent, 2003), (Cohen, Krishnamoorthy, & Wright, 2004). Tuy nhiên, chất lượng BCTC ở đây chỉ xem xét chủ yếu ở góc độ các thông tin tài chính. Thông tin BCTC hiện nay không chỉ dừng ở những thông tin trên BCTC theo ý nghĩa truyền thống, mà nó được hiểu theo khái niệm rộng hơn. Bên cạnh các thông tin tài chính, nhằm hướng đến sự hữu ích cho quá trình ra quyết định của người sử dụng thông tin BCTC, đặc biệt là các đối tượng bên ngoài doanh nghiệp (đa phần trong số họ là các nhà đầu tư và các nhà phân tích), thông tin BCTC còn phải cung cấp những thông tin phi tài chính như báo cáo và phân tích của nhà quản lý, báo cáo kiểm toán và các báo cáo khác (Van Beest, Braam, & Boelens, 2009). BCTC cung cấp những thông tin hữu ích về tình hình hình tài chính, kết quả kinh doanh, các dòng tiền và những thông tin bổ sung khác giúp cho các đối tượng sử dụng thông tin đưa ra các quyết định kinh tế (Epstein & Jermakowicz, 2008), (Mackenzie et al., 2012). Mức độ hữu ích của thông tin tài chính phụ thuộc nhiều vào chất lượng thông tin về lợi nhuận (Ball & Shivakumar, 2005). Thông tin về lợi nhuận và các bộ phận hợp thành của nó ngày càng đóng vai trò quan trọng cho các bên liên quan, có thể đo lường hiệu quả hoạt động của DN và dự đoán được dòng tiền trong tương lai (P. M. Dechow, Kothari, & Watts, 1998). Trên cơ sở nghiên cứu trong và ngoài nước, chúng tôi nhận thấy nghiên cứu chất lượng BCTC trên quan điểm kiểm toán chưa nhiều (đặc biệt là sử dụng kết hợp giữa sai phạm BCTC thông qua kiểm toán và ý kiến của báo cáo kiểm toán để đo lường chất lượng BCTC, ở nước ngoài có rất ít nghiên cứu theo tiếp cận hỗn hợp (kế toán và kiểm toán) như (Tang, Chen, & Lin, 2016), trong khi đó tại Việt Nam chưa có nghiên cứu nào đo lường chất lượng BCTC trên quan điểm kiểm toán. Đồng thời các nghiên cứu trước đây không sử dụng kỹ thuật máy học (machine learning), để xác định các nhân tố ảnh hưởng cũng như dự báo mô hình nghiên cứu. Các thuật toán máy học với nhiều ưu điểm, có thể hỗ trợ nghiên cứu để tìm ra mô hình với khả năng dự báo chính xác hơn. Do đó việc thực hiện nghiên cứu này sẽ có nhiều ý nghĩa cả về mặt lý luận và ứng dụng trong thực tiễn. 2. Tổng quan nghiên cứu 2.1. Nghiên cứu về đo lường chất lượng báo cáo tài chính - Theo Ủy ban chuẩn mực báo cáo tài chính quốc tế, báo cáo tài chính (BCTC) cung cấp thông tin hữu ích cho các nhà đầu tư và chủ nợ hiện tại, tiềm năng và những 30
người sử dụng khác trong việc đánh giá các dòng tiền, khả năng dự đoán dòng tiền mặt trong tương lai đưa ra đầu tư hợp lý. Trong thời gian qua, có một số quan điểm đo lường chất lượng BCTC, như đo lường theo quan điểm kế toán, quan điểm kiểm toán và quan điểm tổng hợp dưới góc độ kế toán và kiểm toán. - Theo quan điểm kế toán, có thể đo lường chất lượng BCTC theo đặc điểm chất lượng và đo lường theo chất lượng lợi nhuận. + Đo lường chất lượng BCTC theo đặc điểm chất lượng đó là chất lượng BCTC được đánh giá dựa trên các thang đo được xây dựng dựa trên các đặc điểm chất lượng của FASB đó là 2 đặc điểm cơ bản: Thích hợp và đáng tin cậy và 2 đặc điểm thứ yếu: Nhất quán và có thể so sánh, các nghiên cứu đã thực hiện như (Beest, Braam, & Boelens, 2009), (García Jara, Cuadrado Ebrero, & Eslava Zapata, 2011). + Đo lường chất lượng BCTC theo chất lượng lợi nhuận như chất lượng dồn tích, quản trị lợi nhuận, tính bền vững của lợi nhuận, khả năng dự báo của lợi nhuận, giá trị thích hợp, tính kịp thời và thận trọng. Các nghiên cứu như (Schipper & Vincent, 2003), (Penman, 2003), (P. Dechow, Ge, & Schrand, 2010) (Francis, LaFond, Olsson, & Schipper, 2004). - Theo quan điểm kiểm toán, các nghiên cứu trên cơ sở ý kiến kiểm toán như nghiên cứu (Spathis, Doumpos, & Zopounidis, 2003), (Caramanis & Spathis, 2006), (Keasey, Watson, & Wynarczyk, 1988); thông qua các sai phạm/gian lận báo cáo tài chính các nghiên cứu của (Cressey, 1953), (Persons, 1995), (Beasley, 1996), (Summers & Sweeney, 1998), (Perols, 2011). Thông qua ý kiến của báo cáo kiểm toán và tình hình sai phạm/gian lận báo cáo tài chính để đánh giá chất lượng thông tin BCTC. - Đo lường chất lượng BCTC theo quan điểm tổng hợp và kế toán và kiểm toán, như nghiên cứu của (Tang et al., 2016), xem xét theo 6 chỉ số, trong đó có 3 chỉ số dựa trên kế toán và 3 chỉ số dựa trên kiểm toán. Bên cạnh đó, các nghiên cứu sử dụng các thuật toán máy học liên quan đến gian lận BCTC gồm (Green & Choi, 1997), (Feroz, Kwon, Pastena, & Park, 2000), (Perols, 2011), (Sharma & Panigrahi, 2013), dự báo các báo cáo kiểm toán với ý kiến chấp nhận toàn phần gồm các nghiên cứu (Pourheydari, Nezamabadi-pour, & Aazami, 2012), (Saif, Sarikhani, & Ebrahimi, 2013), (Yaşar, Yakut, & Gutnu, 2015), (Fernández-Gámez, García-Lagos, & Sánchez-Serrano, 2016), (Stanišić, Radojević, & Stanić, 2019), (Sánchez-Serrano, Alaminos, García-Lagos, & Callejón-Gil, 2020), đối với đo lường chất lượng BCTC có nghiên cứu của (Barać & Bilić, 2021). 2.2. Các nhân tố ảnh hưởng đến chất lượng báo cáo tài chính (P. Dechow et al., 2010) đã nghiên cứu về đo lường chất lượng BCTC, các nhân tố ảnh hưởng và kết quả của chất lượng BCTC gồm 6 nhóm nhân tố: (1) đặc điểm công ty 31
bao gồm hiệu quả công ty, tình trạng nợ, sự tăng trưởng và đầu tư, quy mô công ty, (2) thực tiễn bao gồm phương pháp kế toán, phương pháp trên cơ sở nguyên tắc với trên cơ sở quy định và thực tiễn BCTC khác, (3) quản trị công ty và kiểm soát nội bộ bao gồm HĐQT, tỷ lệ sở hữu vốn, chế độ đãi ngộ, cơ chế kiểm soát nội bộ..., (4) Kiểm toán bao gồm rủi ro kinh doanh, loại công ty kiểm toán, tính độc lập của kiểm toán..., (5) động lực của thị trường vốn bao gồm động lực khi công ty tăng vốn, mục tiêu lợi nhuận đạt được, và (6) các nhân tố bên ngoài khác như yêu cầu của thị trường vốn, quá trình chính trị, các quy định liên quan đến thuế.... và mỗi nghiên cứu thường tập trung vào một trong các nhóm nhân tố trên. (Qinghua, Pingxin, & Junming, 2007) đã nghiên cứu về mối quan hệ giữa ủy ban kiểm toán, đặc điểm của HĐQT với chất lượng BCTC, nghiên cứu thực nghiệm tại thị trường chứng khoán Trung Quốc, các tác giả này đã đo lường chất lượng BCTC của các công ty niêm yết thông qua mức quản trị lợi nhuận bằng mô hình Jones đã điều chỉnh. Một nghiên cứu tại Bồ Đào Nha do (Alves, 2014) thực hiện về ảnh hưởng của tính độc lập của HĐQT đến chất lượng BCTC, ngoài ra tác giả này cũng đã phân tích thêm mối quan hệ của các nhân tố khác đó là đòn bẩy tài chính, dòng lưu chuyển tiền thuần, cơ hội đầu tư, loại công ty kiểm toán và quy mô công ty. Kết quả nhất quán cho thấy chỉ có nhân tố loại công ty kiểm toán không ảnh hưởng đến chất lượng BCTC, các nhân tố còn lại đều có ảnh hưởng. Như vậy, trên thế giới cũng đã có khá nhiều các công trình nghiên cứu về các nhân tố ảnh hưởng đến chất lượng BCTC, trong đó, chất lượng BCTC cũng đã được đo lường bằng nhiều cách khác nhau, mỗi nghiên cứu thường tập trung vào một hoặc vài nhóm nhân tố của HĐQT, đặc điểm công ty và kết quả không đồng nhất. Dựa trên nghiên cứu tổng quan cho thấy ở là một nền kinh tế đang phát triển, có những quy định pháp lý, môi trường kinh doanh và sự phát triển của thị trường chứng khoán chưa được hoàn thiện, do đó việc nghiên cứu các nhan tố ảnh hưởng đến chất lượng BCTC tiếp cận theo kiểm toán sẽ có nhiều ý nghĩa. 3. Mô hình và phương pháp nghiên cứu 3.1. Mô hình nghiên cứu Nghiên cứu này sử dụng các mô hình hồi quy được đề xuất bởi để làm rõ ảnh hưởng của HĐQT đến chất lượng BCTC, của các công ty như đã được thảo luận ở phần tổng quan tài liệu, cụ thể như sau: FRQi,t = β0+ β1ROAi,t + β2SIZEi,t + β3LVi,t + β4LIQi,t + β5DIVi,t + β6FOWNi,t + β7SOWNi,t + β8SIZEBi,t + β9DUAR i, + β10BLOCK i, + β11TIME i,t,+ ɛi,t (1) Để đo lường chất lượng BCTC, chúng tôi dựa trên kết quả kiểm toán đó là sự khác biệt giữa lợi nhuận trước và sau kiểm toán và ý kiến của kiểm toán viên trong báo cáo 32
kiểm toán. Việc đo lường chất lượng BCTC được thực hiện theo ma trận tổng hợp tại Bảng 1 như sau: Bảng 1: Ma trận đo lường chất lượng báo cáo tài chính Ý kiến kiểm toán Toàn Quan Ngoài Từ Trái Tiêu chí và đánh giá phần trọng trừ chối ngược 5 4 3 2 1 Nhỏ hơn 5% 5 5 4 3 2 1 Chênh lệch lợi Từ 5-10% 4 4 4 3 2 1 nhuận trước và sau Từ 10-20% 3 3 3 3 2 1 kiểm toán Từ 20-50% 2 2 2 2 2 1 Trên 50% 1 1 1 1 1 1 Theo bảng 1, Báo cáo tài chính nào được đánh giá các nhỏ thì chất lượng BCTC càng thấp. Báo cáo tài chính nếu có giá =1 thì chất lượng BCTC thấp nhất; bằng 5 thì có chất lượng BCTC cao nhất. Các biến kiểm soát trong phương trình được trình bày tại Bảng 2 như sau: Bảng 2: Mô tả các biến trong mô hình nghiên cứu Biến Tên biến Đo lường ROA Khả năng sinh lời Lợi nhuận sau thuế / Tổng tài sản SIZE Quy mô công ty Log cơ số 10 của tổng tài sản LV Hệ số nợ Tổng nợ phải trả / Tổng tài sản Khả năng thanh toán hiện Tỷ lệ giữa tổng tài sản ngắn hạn trên tổng nợ LIQ hành ngắn hạn Chính sách tỷ lệ chia cổ Tỷ lệ cổ tức được chi trả trên lợi nhuận thuần DIV tức Quyền sở hữu của nước Tỷ lệ % sở hữu vốn bởi cổ đông nước ngoài FOWN ngoài Quyền sở hữu của nhà Tỷ lệ % sở hữu vốn bởi cổ đông là Nhà nước SOWN nước SIZEB Quy mô HĐQT Số lượng thành viên HĐQT Sự kiêm nhiệm của chủ Bằng 1 khi CEO kiêm nhiệm vị trí chủ tịch DUAR tịch HĐQT HĐQT và bằng 0 trong trường hợp ngược lại Số lượng cổ đông sở hữu lớn hơn hoặc bằng 5% Sự tập trung quyền sở hữu BLOCK vốn cổ phần TIME Thời gian niêm yết Số năm niêm yết (Nguồn: tác giả xây dựng) 3.2. Thuật toán sử dụng trong nghiên cứu 3.2.1. Linear Models Linear Regression: Là một mô hình tuyến tính đầu tiên, hồi quy tuyến tính với phương pháp bình phương nhỏ nhất thông thường được triển khai. Mục đích là để giảm 33
thiểu tổng bình phương giữa giá trị thực và giá trị ước tính bằng cách điều chỉnh mô hình tuyến tính với các hệ số (Pedregosa et al., 2011). Ridge regression và Lasso regression là hai mô hình hồi qui áp dụng kỹ thuật hiệu chuẩn (regularization) để tránh hiện tượng quá khớp (overfitting). Quá khớp là hiện tượng mà mô hình chỉ khớp tốt trên tập dữ liệu huấn luyện nhưng không dự báo tốt trên dữ liệu kiểm tra. Đây là trường hợp thường gặp khi huấn luyện các mô hình machine learning. Hiện tượng này gây ảnh hưởng xấu và dẫn tới mô hình không thể áp dụng được vì các dự báo bị sai khi áp dụng vào thực tiễn. Có nhiều nguyên nhân dẫn tới quá khớp. Một trong những nguyên nhân phổ biến đó là tập dữ liệu huấn luyện và dữ liệu dự báo có phân phối khác xa nhau dẫn tới các qui luật học được ở dữ liệu huấn luyện không còn đúng trên dữ liệu dự báo. Hoặc cũng có thể xuất phát từ phía mô hình quá nhiều tham số nên khả năng biểu diễn dữ liệu của nó không mang tính đại diện. Regularization là kĩ thuật tránh overfiting bằng cách cộng thêm vào loss function thành phần hiệu chuẩn. Thông thường thành phần này ở dạng norm chuẩn bậc 1 hoặc 2 của các hệ số. Trong trường hợp bậc 2 ta gọi là Ridge regression, đối với trường hợp bậc 1 gọi là Lasso regression. Đối với những hồi qui này thì chúng ta cần tinh chỉnh hệ số α để tìm ra một hệ số là tốt nhất với từng bộ dữ liệu. Trong trường hợp dữ liệu bị quá khớp nặng thì cần giảm quá khớp bằng cách gia tăng ảnh hưởng của thành phần điều chuẩn (regularization term) thông qua tăng hệ số α. Nếu mô hình không bị quá khớp thì có thể lựa chọn α gần 0. Trường hợp α=0 thì phương trình hồi qui tương đương với hồi qui tuyến tính đa biến. Elastic-Net: Để bổ sung thêm sức mạnh giải thích cho họ các mô hình tuyến tính, Elastic-Net (Zou & Hastie, 2005) đã được quyết định áp dụng. Đầu tiên, nó là sự tiếp nối của các mô hình hồi quy tuyến tính được huấn luyện với hình phạt L1 của Lasso và hình phạt L2 của Ridge. Việc kết hợp các hình phạt của cả hai phương pháp trong một mô hình sẽ tạo ra một mô hình cạnh tranh, chính quy trong đó trọng số của tham số là khác 0 (Pedregosa et al., 2011). 3.2.2. Decision Tree Decision Tree: Cây quyết định (Decision Tree) là một mô hình phân loại được giới thiệu bởi (Belson, 1959), được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau. Sau khi giới thiệu về hệ thống phương pháp học máy (Machine learning), cây quyết định đã đã được phát triển hơn với các thuật toán C4.5 bởi (J Ross Quinlan, 1996) và thuật toán ID3 bởi (J. Ross Quinlan, 1986). Decision Tree là một cây phân loại có cấu trúc được phân lớp các đối tượng dựa vào dãy các luật. Các biến độc lập và thuộc tính có thể thuộc các kiểu dữ liệu khác nhau như nhị phân (binary), định danh (nominal), thứ bậc (ordinal), dữ liệu định lượng (quantitative). Để xác định biến nào sử dụng phân loại trước, biến nào 34
sử dụng sau, trọng số thông tin (Entropy) ứng với mỗi biến được tính toán, giá trị thông tin càng cao, biến đó càng mang nhiều thông tin phân loại. Random Forest: Random Forest (rừng ngẫu nhiên) là phương phân lớp thuộc tính được phát triển bởi Leo Breiman tại đại học California, Berkeley. Breiman cũng là đồng tác giả của phương pháp CART (Classification and Regression Trees) được đánh giá là một trong mười phương pháp khai phá dữ liệu. Trong random forest, việc cải thiện một cách đáng kể trong độ chính xác phân lớp là kết quả có được từ sự phát triển của một tập hợp các cây, mỗi cây trong tập hợp sẽ “bỏ phiếu” cho lớp phổ biến nhất. Để phát triển các tập hợp cây này thông thường các véc tơ ngẫu nhiên được tạo ra, các véc tơ này sẽ chi phối sự phát triển của mối cây trong các tập nói trên. Đối với cây thứ k trong tập các cây, một véc tơ ngẫu nhiên Vk được tạo ra, véc tơ này độc lập với các véc tơ được tạo ra trước đó V1, V2, …, Vk-1 nhưng sự phân bố của các véc tơ này là tương tự nhau. Một cây được phát triển dựa vào tập tập huấn và véc tơ Vk kết quả là được một phân lớp h(x, Vk) trong đó x là véc tơ đầu vào. Sau khi một số lượng lớn các cây được tạo ra các cây này “bỏ phiếu” cho lớp phổ biến nhất. AdaBoost: Boosting là kỹ thuật sử dụng kết hợp các thuật toán học máy trên quần thể không gian mẫu một cách tuần tự, sau đó thực hiện tổng hợp các kết quả phân lớp riêng để được một bộ phân lớp hiệu quả. Một giải thuật hiệu quả trong Boosting là AdaBoost (Adaptive Boosting), sử dụng các trọng số phân bổ lỗi gán cho từng mẫu như được chỉ ra. Thuật toán ban đầu phân bổ các trọng số tương đương trên mỗi mẫu huấn luyện. Trong mỗi bước lặp, thuật toán tiến hành: (i) huấn luyện mẫu bởi một bộ phân loại yếu; (ii) kiểm tra lại kết quả phân lớp trên mẫu huấn luyện đó có chính xác không; (iii) tính toán lại phân bổ trọng số lỗi trên các mẫu theo hướng: tăng trọng số lỗi trên các mẫu bị phân loại sai và giảm trọng số lỗi trên các mẫu được phân loại đúng. Sau khi kết thúc các vòng lặp, giải thuật sẽ tiến hành tổng hợp các bộ phân lớp thành viên thành bộ phân lớp tổng hợp. Gradient Boosting: Gradient Boost cũng là một thuật toán tổng hợp sử dụng các phương pháp thúc đẩy (boosting) để phát triển một công cụ dự đoán nâng cao. Theo nhiều cách, Gradient Boost tương tự như AdaBoost, nhưng có một số điểm khác biệt chính: Không giống như AdaBoost xây dựng các cây quyết định, Gradient Boost xây dựng các cây thường có 8–32 lá. Gradient Boost xem vấn đề tăng cường (boosting problem) là một vấn đề tối ưu hóa, trong đó nó sử dụng một hàm mất mát (loss function) và cố gắng giảm thiểu lỗi. Đây là lý do tại sao nó được gọi là Gradient boost, vì nó được lấy cảm hứng từ sự giảm dần độ dốc (gradient descent). Cuối cùng, cây được sử dụng để dự đoán lượng dư của các mẫu (dự đoán trừ thực tế). Gradient Boost bắt đầu bằng cách xây dựng một cây để cố gắng phù hợp với dữ liệu và các cây tiếp theo được xây dựng 35
nhằm mục đích giảm phần dư (lỗi). Nó thực hiện điều này bằng cách tập trung vào các khu vực mà những người học hiện có hoạt động kém, tương tự như AdaBoost. 3.2.3. SVM and KNN Models Phần còn lại của hai mô hình được áp dụng được gộp lại với nhau mặc dù chúng không giống nhau về cách thức trước đó, nhưng chúng sử dụng cùng một phương pháp để đánh giá mối liên hệ của các tỷ số tài chính với TSSL cổ phiếu. Support Vector Machine (SVM): SVM là một thuật toán phân loại nhị phân, SVM nhận dữ liệu vào và phân loại chúng vào hai lớp khác nhau. Với một bộ các ví dụ huấn luyện thuộc hai thể loại cho trước, thuật toán SVM xây dựng một mô hình SVM để phân loại các ví dụ khác vào hai thể loại đó. Support vector machine (SVM) xây dựng (learn) một siêu phẳng (hyperplane) để phân lớp (classify) tập dữ liệu thành 2 lớp riêng biệt. Để làm được điều này SVM sẽ xây dựng một siêu phẳng hoặc một tập hợp các siêu phẳng trong một không gian nhiều chiều hoặc vô hạn chiều, có thể được sử dụng cho phân loại, hồi quy, hoặc các nhiệm vụ khác. Để phân loại tốt nhất thì phải xác định siêu phẳng (Optimal hyperplane) nằm ở càng xa các điểm dữ liệu của tất cả các lớp (Hàm lề) càng tốt, vì nói chung lề càng lớn thì sai số tổng quát hóa của thuật toán phân loại càng bé. K-Nearest Neighbors (kNN): K-Nearest Neighbors algorithm (K-NN) được sử dụng rất phổ biến trong lĩnh vực Data Mining. K-NN là phương pháp để phân lớp các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần xếp lớp (Query point) và tất cả các đối tượng trong Training Data. Một đối tượng được phân lớp dựa vào K láng giềng của nó. K là số nguyên dương được xác định trước khi thực hiện thuật toán. Người ta thường dùng khoảng cách Euclidean để tính khoảng cách giữa các đối tượng. Thuật toán đơn giản này có khả năng giải các bài toán hồi quy được đề xuất bởi (Altman, 1992). Nó giả định rằng các quan sát tương tự tồn tại ở gần nhau. Phương pháp lân cận gần nhất dự đoán đầu ra bằng cách sử dụng số k của dữ liệu huấn luyện. 3.3. Feature Importance Kỹ thuật gán điểm số cho các tính năng đầu vào trong mô hình dự đoán được gọi là tầm quan trọng của tính năng. Điểm quan trọng của tính năng là một phần thiết yếu của mô hình dự đoán vì chúng có thể được sử dụng để nâng cao hiệu suất của mô hình và hiểu rõ hơn về tập dữ liệu và mô hình. Điểm số tương đối mà họ cung cấp có thể được sử dụng để xác định các tính năng nào phù hợp nhất cho nghiên cứu. Có nhiều loại điểm số tầm quan trọng của đối tượng địa lý trong những kỹ thuật. Những điểm đơn giản để tính toán là các điểm tương quan thống kê như tương quan của Pearson và thứ hạng của Spearman đối với tương quan tuyến tính và tương quan phi tuyến, tương ứng. 36
Có ba loại điểm quan trọng của tính năng nâng cao hơn cũng được triển khai từ hệ số mô hình như một phần của mô hình tuyến tính, từ mô hình dựa trên cây quyết định và từ tầm quan trọng hoán vị, được mô tả chi tiết hơn trong (Pedregosa et al., 2011). Chúng tôi mô tả 3 thuộc tính quan trọng dưới đây. Coefficients as Feature Importance: Sau khi phù hợp với mô hình học máy tuyến tính trên tập dữ liệu, hệ số của mỗi biến đầu vào có thể được truy xuất và nêu dưới dạng điểm mức độ quan trọng của tính năng. Việc so sánh có thể thực hiện được vì tập dữ liệu được chuẩn hóa và các biến có cùng thang đo. Cách tiếp cận này được áp dụng cho các mô hình Hồi quy tuyến tính và Elastic-Net để truy xuất điểm quan trọng của đối tượng địa lý. Tree-Based Feature Importance:: Các thuật toán cây quyết định, chẳng hạn như thuật toán CART được thực hiện trong nghiên cứu này, cung cấp trong quá trình triển khai của scikit-learning điểm quan trọng của tính năng dựa trên việc giảm tiêu chí được sử dụng để chọn điểm phân tách. Cách tiếp cận này được thực hiện cho mô hình Cây quyết định và tất cả các phương pháp tổng hợp dựa trên cây được được sử dụng như Random Forest, Gradient Boosting, and AdaBoost. Permutation Feature Importance: Kỹ thuật này tính toán điểm quan trọng tương đối độc lập với mô hình được sử dụng. Sau khi phù hợp với một mô hình trên tập dữ liệu, dự đoán sẽ được thực hiện, sau đó điều này được lặp lại năm lần cho mỗi tính năng trong tập dữ liệu, dẫn đến điểm quan trọng trung bình cho mỗi tính năng đầu vào. Kỹ thuật này phù hợp với các mô hình không cung cấp điểm quan trọng của tính năng gốc, chẳng hạn như k-Nearest Neighbors và SVM trong nghiên cứu này. Các đặc tính quan trọng được xác định như sau: 𝑭n(fused) = 𝒘1 𝑭1n + 𝒘2 𝑭2n + ⋯ +𝒘m 𝑭mn Wi = , for i= 1,…n F: giá trị tuyệt đối của điểm quan trọng tương đối của đối tượng địa lý mà mô hình tạo ra W: giá trị trọng lượng chuẩn hóa dựa trên khả năng dự đoán của mô hình m: số lượng mô hình n: số lượng các nhân tố (n = 11, trong nghiên cứu này) 3.4. Đánh giá mô hình Việc đánh giá mô hình hồi quy có lẽ là phần quan trọng nhất của việc xây dựng mô hình ML có giám sát. Điều này quyết định xem mô hình đã sẵn sàng để triển khai hay chưa. Các chỉ số chỉ hiển thị các con số, nhưng nếu xem xét cẩn thận, nó có thể cho chúng ta biết về việc lựa chọn tính năng và kỹ thuật tính năng. Trong nghiên cứu này, 37
chúng ta sẽ xem xét các số liệu hồi quy và khám phá lý do tại sao chúng tôi sử dụng các chỉ số hồi quy mà chúng tôi sử dụng là: Mean Absolute Error, Mean Squared Error, Root Mean Squared Error. Mean Absolute Error (MAE) là chỉ số đo lường trung bình trị tuyệt đối sai số giữa giá trị dự báo và giá trị thực tế. MAE= Chúng ta có thể thấy về bản chất thì MAE chính là norm chuẩn bậc 1. Khi MAE càng nhỏ thì khoảng cách giữa giá trị dự báo và giá trị thực tế càng nhỏ và mô hình càng tốt. Tuy nhiên giá trị MAE không bao hàm được sự khác biệt về mặt đơn vị. Mean Squared Error (MSE) của một phép ước lượng là trung bình của bình phương của sai số, tức là sự khác biệt giữa các giá trị được mô hình dự đoán và giá trị thực. MSE là một hàm rủi ro, tương ứng với giá trị kỳ vọng của sự mất mát sai số bình phương hoặc mất mát bậc hai. MSE là moment bậc hai (về nguồn gốc) của sai số là moment bậc hai (về nguồn gốc) của sai số. 2 MAE= Root Mean Squared Error (RMSE), là độ lệch chuẩn của phần dư (lỗi dự đoán). Phần dư là thước đo khoảng cách từ các điểm dữ liệu đường hồi quy; RMSE là thước đo mức độ lan truyền của những phần dư này. Nói cách khác, nó cho bạn biết mức độ tập trung của dữ liệu xung quanh dòng phù hợp nhất. RMSE thường được sử dụng trong dự báo và phân tích hồi quy để xác minh kết quả thí nghiệm. RMSE là thước đo mức độ hiệu quả của mô hình của bạn. Nó thực hiện điều này bằng cách đo sự khác biệt giữa các giá trị dự đoán và giá trị thực tế. RMSE càng nhỏ tức là sai số càng bé thì mức độ ước lượng cho thấy độ tin cậy của mô hình có thể đạt cao nhất. 2 RMSE= 3.5. Phương pháp nghiên cứu Nghiên cứu sử dụng phương pháp hồi quy Fixed Effect và Random Effect để ước lượng ảnh hưởng của các nhân tố đến chất lượng BCTC của các DN niêm yết trên ở Việt Nam. Bài nghiên cứu sẽ sử dụng kiểm định F-Test và kiểm định Hausman để xem xét trong Fixed Effect và Random Effect thì phương pháp nào cho kết quả tốt hơn, từ đó kiểm tra các khuyết tật của mô hình lựa chọn và tìm hướng khắc phục mô hình bằng việc sử dụng phương pháp GLS. 38
3.6. Dữ liệu nghiên cứu Nghiên cứu tìm hiểu ảnh hưởng HĐQT đến chất lượng BCTC của các DN niêm yết trên sàn chứng khoán Việt Nam trong giai đoạn 2014-2020 với 2225 quan sát. Dữ liệu của các công ty trên được thu thập tại BCTC trước và sau kiểm toán của các DN và bộ dữ liệu của Vietstock, cũng như tổng hợp từ nguồn dữ liệu được công bố trên một số website chứng khoán uy tín như cafef.vn hay cophieu68.com. Dữ liệu nghiên cứu theo năm và ngành nghề được trình bày trong bảng 3. Bảng 3: Thống kê dữ liệu nghiên cứu Industry Bất động Hàng Year Công Công Dịch Năng Nông Nguyên Total sản và Tiêu Y tế nghệ nghiệp vụ Lượng nghiệp Vật liệu Xây dựng dùng 2014 104 10 40 31 26 29 35 28 11 314 2015 108 10 42 32 27 29 36 28 11 323 2016 111 10 42 32 27 30 36 29 11 328 2017 112 10 42 31 27 30 36 29 11 328 2018 107 10 42 30 25 30 36 28 11 319 2019 111 10 42 30 27 30 37 29 11 327 2020 96 9 39 29 24 26 26 27 10 286 Total 749 69 289 215 183 204 242 198 76 2,225 Theo kết quả Hình 1, Trong tổng số 2225 công ty được khảo sát, không có chênh lệch và chênh lệch lợi nhuận sau thuế dưới 1% chiếm tỷ lệ 59.7%, số doanh nghiệp có chênh lệch lợi nhuận sau thuế không trọng yếu từ 1%-5% chiếm tỷ lệ 19.5%. Số doanh nghiệp có sự chênh lệch lợi nhuận sau thuế từ 5% đến 10% chiếm tỷ lệ 6.85%, số doanh nghiệp có chênh lệch lợi nhuận sau thuế từ 10% đến 20% là 4.7% và đặc biệt số doanh nghiệp có chênh lệch lợi nhuận sau thuế từ 50% -100% và trên 100% lần lượt là 2.8% và 2.3%. Hình 1: Tổng hợp mức độ chênh lệch lợi nhuận sau thuế trước và sau kiểm toán Trong số 2225 quan sát, có 1420 quan sát quan sát có chênh lệch lợi nhuận sau thuế trước và sau kiểm toán với tỷ lệ là 63.8%, trong đó chênh lệch giảm chiếm tỷ lệ 33% trong khi đó số công ty chênh lệch tăng chiếm tỷ lệ 30.8%. Như vậy các công ty có xu hướng chênh lệch lợi nhuận sau thuế trước và sau kiểm toán là giảm, nghĩa là lợi nhuận sau thuế sau khi thực hiện kiểm toán thấp hơn so với lợi nhuận sau thuế chưa được kiểm toán. Như vậy các công ty có xu hướng thổi phồng lợi nhuận nhiều hơn các công ty giấu bớt lợi nhuận. 39
Bảng 4: Chênh lệch lợi nhuận sau thuế trước và sau kiểm toán theo xu hướng Chênh lệch Year Total Giảm Không thay đổi Tăng 2014 94 132 88 314 2015 96 136 91 323 2016 114 108 106 328 2017 112 106 110 328 2018 114 103 102 319 2019 115 118 94 327 2020 90 102 94 286 Total 735 805 685 2,225 Tỷ lệ 33.0% 36.2% 30.8% 100.0% Dựa vào bảng 5, ta thấy các công ty trong mẫu quan sát nhận số lượng ý kiến kiểm toán chấp nhận toàn phần với 1853 quan sát, chiếm tỷ lệ 83.28%, có 251 báo cáo kiểm toán có có ý kiến kiểm toán nhấn mạnh với tỷ lệ 11.28%, các báo cáo tài chính có ý kiến ngoại trừ là 5.3%, ý kiến kiểm toán từ chối là 0.09% và chỉ có 1 báo cáo tài chính với ý kiến từ chối chiếm tỷ lệ 0.04%. Bảng 5: Tổng hợp cơ sở ý kiến kiểm toán dữ liệu nghiên cứu. Ý kiến kiểm toán Year Chấp nhận Nhấn Ngoại Trái Total Từ chối toàn phần mạnh trừ ngược 2014 270 23 21 0 0 314 2015 268 38 17 0 0 323 2016 279 32 17 0 0 328 2017 283 32 13 0 0 328 2018 263 39 16 0 1 319 2019 256 50 19 2 0 327 2020 234 37 15 0 0 286 Total 1,853 251 118 2 1 2,225 Tỷ lệ 83.28% 11.28% 5.30% 0.09% 0.04% 100.0% Khi đo lường chất lượng BCTC trên quan điểm kiểm toán, chúng tôi dựa trên 2 khía cạnh của kết quả kiểm toán, thứ nhất (i) dựa trên kết quả chênh lệch lợi nhuận trước và sau kiểm toán, trên cơ sở sự khác biệt về chênh lệch lợi nhuận sau thuế đã được trình bày kết quả ở hình 1. Thứ 2 (ii), kết quả ý kiến kiểm toán trên báo cáo kiểm toán về BCTC, đã trình bày ở bảng 5. Trên cơ sở đo lường chất lượng BCTC dựa trên ma trận đã trình bày theo thiết kế ở bảng 1, tổng hợp chất lượng BCTC trê quan điểm kiểm toán được trình bày ở Bảng 6. Bảng 6: Tổng hợp chất lượng báo cáo tài chính của các doanh nghiệp theo dữ liệu khảo sát PBCTC Year Total 1 2 3 4 5 2014 15 13 24 34 228 314 40
2015 20 22 26 44 211 323 2016 19 17 27 53 212 328 2017 21 14 26 33 234 328 2018 15 13 21 51 219 319 2019 13 15 28 59 212 327 2020 12 11 20 52 191 286 Total 115 105 172 326 1,507 2,225 5. Kết quả nghiên cứu và thảo luận Theo số liệu Bảng 7, biến FRQ có giá trị trung bình là 4.35, với độ lệch chuẩn là 1.13, Khả năng sinh lời của các doanh nghiệp bình quân 6.3%, quy mô của DN theo tài sản sau khi đã Logarit trung bình là 28.1, tỷ lệ nợ phải trả trên tổng tài sản trung bình là 48.06%, khả năng thanh toán bình quân là 2.98, Tỷ lệ thanh toán cổ tức bình quân 38.78%. Trong khi đó tỷ lệ sở hữu nước ngoài và sở hữu nhà nước bình quân là 13.45% và 67.15%, quy số lượng thành viên thuộc HĐQT trung bình là 5.71 thành viên, cao nhất là 18 thành viên và thấp nhất là 3 thành viên. Tỷ lệ thành viên HĐQT độc lập không điều hành là 68.2%, thấp nhất là 20% và cao nhất là 100%. Trung bình có 21.92% DN có Chủ tịch HĐQT kiêm tổng giám đốc, doanh nghiệp có thành viên hội đồng quản trị là cổ đông lớn chiếm tỷ lệ 9.8%, thời gian niêm yết của các doanh nghiệp bình quân là 9.5 năm. Bảng 7: Thống kê mô tả Variable Obs Mean Std. Dev. Min Max FRQ 2,225 4.350562 1.134118 1 5 ROA 2,225 0.0634629 0.0817833 -0.852589 0.7836998 SIZE 2,225 28.10295 1.366399 23.77868 33.67722 LV 2,225 0.4806314 0.2141248 0.0006822 1.294471 LIQ 2,225 2.98052 21.23128 0.0500295 982.4858 DIV 2,225 0.387956 1.671055 -1.216545 75 FOWN 2,225 0.1345479 0.1570924 0 0.95 SOWN 2,225 0.6715015 0.2715032 0.01 1 SIZEB 2,225 5.719946 1.538739 3 18 DUAR 2,225 0.2192688 0.4134732 0 1 BLOCK 2,225 0.0982902 0.1517574 0 0.8 TIME 2,225 9.530337 4.694929 3 22 Hình 2, cho kết quả hệ số tương quan giữa các biến, mục đích của kiểm tra mối tương quan chặt chẽ giữa các biến độc lập và biến phụ thuộc để loại bớt các nhân tố có thể dẫn đến hiện tượng đa cộng tuyến trước khi chạy mô hình hồi quy. Hệ số tương quan giữa các biến độc lập trong mô hình không có cặp nào lớn hơn 0,6. Hình 2: Ma trận tự tương quan giữa các biến trong mô hình nghiên cứu 41
Bảng 8: Kết quả hồi quy OLS FEM REM GLS ROA 3.562*** 2.197*** 2.924*** 3.562*** SIZE 0.00678 -0.114* 0.00217 0.00678 LV 0.0666 0.334 0.0644 0.0666 LIQ 0.000404 0.000231 0.000305 0.000404 DIV -0.0362*** -0.0308** -0.0334*** -0.0362*** FOWN 0.0242 0.448 0.211 0.0242 SOWN -0.575*** -0.639*** -0.619*** -0.575*** SIZEB 0.0836*** -0.0808* 0.0544** 0.0836*** DUAR -0.0661 -0.0165 -0.0724 -0.0661 BLOCK 0.422** 1.06 0.457* 0.422** TIME -0.00840* 0.0203 -0.00403 -0.00840* _cons 3.873*** 7.813*** 4.170*** 3.873*** N 2225 2225 2225 2225 R-sq 0.117 0.0295 0.2331 F(11, 2213) = F(11,1875) = 26.58 5.49 Kiểm định F Prob > chi2 = Prob > chi2 = 0.0000 0.0000 Wald chi2(11) Wald chi2(11) = 146.43 = 293.96 Kiểm định LM Prob > chi2 = Prob > chi2 = 0.0000 0.0000 Kiểm định chi2(12) = 27.21 Hausman Prob>chi2 = 0.0072 Modified chi2 (339) = 3.2e+07 Wald test Prob>chi2 = 0.0000 F( 1, 328) = 11.154 Wooldridge Prob > F = 0.0009 test t statistics in brackets * p
lời (ROA), quy mô của HĐQT (SIZEB) và sự tập trung của quyền sở hữu (BLOCK) có ảnh hưởng thuật chiều và ý nghĩa thống kê đến chất lượng BCTC. Kết quả nghiên cứu này cũng phù hợp với nghiên cứu của (Xie, Davidson, & DaDalt, 2003), (Alves, 2014), (Abed, Al-Attar, & Suwaidan, 2012), (Chalaki, Didar, & Riahinezhad, 2012). Trong khi đó các nhân tố về chính sách tỷ lệ chia cổ tức (DIV), tỷ lệ sở hữu nhà nước (SOWN) và thời gian niêm yết của doanh nghiệp có ảnh hưởng ngược chiều đến chất lượng BCTC và có ý thống kê. Kết quả này tương đồng với các nghiên cứu của (Soliman & Ragab, 2014), (Dang, Vu, Ngo, & Hoang, 2019), (Ha, Dang, Tran, Van Vu, & Trung, 2019), (Van, Hung, Van, & Xuan, 2019), (Hung, Do Hoai Linh, Hoa, & Ha, 2018), (Van Khanh & Hung, 2020), (Chalaki et al., 2012). Để đánh giá mức độ hiệu quả các thuật toán trong dự đoán ảnh hưởng của các nhân tố đến chất lượng BCTC trên quan điểm kiểm toán, chúng tôi sử dụng 3 tiêu chí đo lường là Mean Absolute Error (MAE), Mean Squared Error (MSE) và Root Mean Squared Error (RMSE) được trình bày tại (Bảng 9). Những thuật toán nào có giá trị nhỏ nhất thì có hiệu quả đo lường chính xác nhất. Bảng 9: Kết quả đánh giá các thuật toán Root Mean Mean Absolute Mean Squared Squared Error Error Error LinearRegression 0.8138 1.2045 1.0975 Lasso 0.8151 1.2051 1.0978 Ridge 0.8138 1.2045 1.0975 ElasticNet 0.8146 1.2050 1.0977 RandomFores 0.7097 1.0439 1.0217 DecisionTree 0.8180 1.9685 1.4030 AdaBoost 0.8367 1.0918 1.0449 GradientBoosting 0.6968 0.9834 0.9917 KNeighbor 0.7596 1.1473 1.0711 SVM 0.6799 1.3350 1.1554 Khi đo lường theo MAE thi thuật toán AdaBoost có giá trị cao nhất là 0.8367, điều đó chứng tỏ thuật toán này có hiệu quả đo lường kém nhất, còn thuật toán SVM có giá trị là 0.6799, điều đó chứng tỏ thuật toán có hiệu quả đo lường tốt nhất trong 10 thuật toán được sử dụng này trong bộ dữ liệu áp dụng. Trong khi đó khi sử dụng đo lường là MSE và RMSE thì thuật toán có giá trị thấp nhất là thuật toán GradientBoosting với giá trị tương ứng là 0.9834 và 0.9917. Như vậy thuật toán GradientBoosting có độ chính xác dự 43
đoán tốt nhất trong các thuật toán được sử dụng trong dự đoán ảnh hưởng các nhân tố đến chất lượng BCTC. Bảng 10: Coefficients as Feature Importance Linear Lasso Ridge ElasticNet Regression F (Fused) ROA 0.285486 0.275258 0.285484 0.277899 0.281 SIZE 0.023105 0.017688 0.023105 0.02141 0.021 FOWN 0.008755 0.005952 0.008755 0.007712 0.008 SOWN 0.145479 0.132524 0.145477 0.137971 0.140 DUAR 0.034348 0.024724 0.034348 0.029542 0.031 LV 0.006755 0 0.006755 0 0.003 LIQ 0.008278 0 0.008278 0.00313 0.005 DIV 0.074059 0.063506 0.074058 0.068351 0.070 TIME 0.035174 0.0253 0.035174 0.030492 0.032 BLOCK 0.073806 0.056733 0.073805 0.064636 0.067 SIZEB 0.122477 0.114538 0.122476 0.117676 0.119 Root Mean Squared Error 1.098 1.098 1.098 1.098 4.390 Weight 0.250 0.250 0.250 0.250 Khi áp dụng các thuật toán hồi quy, chúng tôi đã sử dụng các thuật toán Linear Regression, Lasso, Ridge, ElasticNet đã xác định hệ số quan trọng của từng chỉ số tài chính được trình bày tại bảng 9. Dựa trên hệ số RMSE hệ số hồi quy quan trọng từng chỉ tiêu tài chính, chúng tôi đã xác định chỉ số F (Fused) của hệ số hồi quy quan trọng của đặc điểm được hiển thị được trình bày trong Bảng 10 và Hình 3. Hình 3: Coefficients as Feature Importance Theo hình 3. ba nhân tố quan trọng nhất tương ứng là khả năng sinh lời sau thuế trên tài sản (ROA) với giá trị là 0.281, tiếp theo quyền sở hữu của nhà nước (SOWN) với giá trị 0.140, và đứng thứ ba là quy mô của HĐQT (SIZEB) là 0.119. Ba chỉ tiêu tài chính có tầm quan trọng thấp nhất là đòn bẩy tài chính (LV) giá trị là 0.003, khả năng thanh toán ngắn hạn (LIQ) là 0.005 và quyền sở hữu nước ngoài (FOWN) với giá trị là 0.08. 44
Bảng 11: Feature Importance Decision Gradient Random Fores AdaBoost Tree Boosting F (Fused) ROA 0.325496 0.327148 0.490312 0.523396 0.424 SIZE 0.122888 0.118911 0.035556 0.060853 0.082 FOWN 0.057477 0.077125 0.047514 0.028554 0.051 SOWN 0.087253 0.089484 0.13 0.0729 0.095 DUAR 0.018986 0.016086 0.018893 0.03312 0.022 LV 0.099147 0.112093 0.05185 0.063174 0.079 LIQ 0.109671 0.103682 0.033715 0.082784 0.081 DIV 0.048258 0.037889 0.01957 0.050331 0.039 TIME 0.075424 0.079241 0.099069 0.043583 0.074 BLOCK 0.026193 0.027177 0.030078 0.022195 0.026 SIZEB 0.029206 0.011163 0.043443 0.019109 0.027 Root Mean Squared Error 1.022 1.403 1.045 0.992 4.461 Weight 0.268 0.195 0.262 0.276 Tiếp theo, chúng tôi sử dụng các thuật toán của nhóm cây quyết định, bốn thuật toán được sử dụng là Random Fores, Decision Tree, AdaBoost, Gradient Boosting, giá trị tầm quan trọng của tính năng của các nhân tố ảnh hưởng đến chất lượng BCTC dựa trên các thuật toán cây quyết định được hiển thị Bảng 11. Các giá trị tầm quan trọng tương tự của các nhân tố ảnh hưởng đến chất lượng BCTC được tổng hợp được trình bày trong Hình 4. Hình 4: Feature Importance 45
Sử dụng các thuật toán hồi quy, trong 11 nhân tố ảnh hưởng đến chất lượng BCTC, Khả năng lời lợi nhuận sau thuế trên tổng tài sản (ROA) có điểm quan trọng cao nhất là 0.424, kế tiếp là quyền sở hữu của nhà nước (SOWN) 0.095 và nhân tố quan trong thứ ba có hệ số là 0.082 là chỉ số quy mô doanh nghiệp theo tài sản (SIZE). Ngược lại 3 chỉ số có mức độ quan trọng thấp nhất là nhân tố chủ tịch HĐQT kiểm tông giảm đốc (DUAR) 0.022, sự tập trung của sở hữu cổ động lớn (BLOCK) là 0.026 và Quy mô của hội đồng quản trị (SIZEB) là 0.027. Tầm quan trọng về tính năng của mô hình Máy vectơ hỗ trợ và tầm quan trọng của mô hình K-Nearest Neighbors được tính theo Permutation Feature Importance. Các giá trị ban đầu mà kỹ thuật Permutation Feature Importance cung cấp được trình bày dưới ở bảng 12. Kết quả là điểm quan trọng trung bình cho mỗi chỉ số tài chính được xác định ở cột F (Fused). Giá trị của Permutation Feature Importance nhỏ hơn nhiều so với các Feature Importance và Coefficients as Feature Importance đã được trình bày ở các mục trước, và do đó chúng không thể so sánh trực tiếp với nhau. Tuy nhiên, thứ hạng quan trọng từ cao đến rất thấp vẫn có thể được trình bày bằng cách sử dụng điểm độ giá trị với các chỉ tiêu tài chính với nhau. Bảng 12: Permutation Feature Importance KNeighbor SVM F (Fused) ROA 0.011401 0.012971 0.0122 SIZE 0.013721 0.003313 0.0087 FOWN 0.00882 0.004754 0.0069 SOWN 0.016222 0.005108 0.0109 DUAR 0.007624 0.004944 0.0063 LV 0.010602 0.004193 0.0075 LIQ 0.001049 0.001183 0.0011 DIV 0.002362 0.002092 0.0022 TIME 0.009553 0.006486 0.0081 BLOCK 0.00886 0.003523 0.0063 SIZEB 0.010625 0.005297 0.0081 Root Mean Squared Error 1.0711 1.1554 2.2266 Weight 0.5189 0.4811 Theo hình 5, 3 nhân tố ảnh hưởng đến chất lượng BCTC quan trọng nhất theo chỉ số Permutation Feature Importance lần lượt là khả năng sinh lời theo lợi nhuận sau thuế trên tổng tài sản (0.012), sơ hữu nhà nước (0.011) và quy mô doanh nghiệp (0.009). Ngược lại những chỉ số có tầm quan trọng thấp nhất là khả năng thanh toán ngắn hạn (0.001), tỷ lệ chi trả cổ tức (0.002) và mức độ tập trung của cổ đông lớn (0.006). 46
Hình 5: Permutation Feature Importance Để đánh giá một cách tổng hợp và toàn diện tầm quan trọng của các nhân tố ảnh hưởng đến chất lượng BCTC trên quan điểm kiểm toán. Chúng tôi tiến hành xếp hạng kết quả của ba phương pháp tiếp cận tầm quan trọng đặc trưng khác nhau được hình dung như một biểu đồ thanh để xem xét tầm quan trọng của các tỷ số tài chính tổng quát. Xếp hạng từ 1 đến 11, dựa trên mức độ quan trọng của các nhân tố trong phân tích ở trên. Nghiên cứu này sử dụng 11 nhân tố, và do đó các giá trị nằm trong khoảng từ 1 đến 11. Điểm quan trọng cao nhất nhận giá trị là 11 và mức quan trọng thấp nhất nhận giá trị là 1. Hình 6 nên được hiểu là thanh càng cao thì tầm quan trọng của các nhân tố càng cao. Mỗi nhân tố được nhóm lại với cả ba phương pháp tiếp cận tầm quan trọng đặc trưng là “Coefficients as Feature Importance”, “Feature Importance” và “Permutation Feature Importance” để so sánh tốt hơn xếp hạng các tỷ số tài chính dựa trên các phương pháp tiếp cận. Hình 6, Cho thấy 3 nhân tố ảnh hưởng đến chất lượng BCTC quan trọng nhất lần lượt là khả năng sinh lợi của lợi nhuận sau thuế trên tài sản (ROA), quyền sở hữu nhà nước (SOWN) và quy mô của doanh nghiệp (SIZE). Hình 6: Feature Importance Ranking 6. Kết luận và khuyến nghị Sử dụng một mẫu nghiên cứu gồm 2225 quan sát tại các DN niêm yết trên thị trường chứng khoán Việt Nam trong giai đoạn từ năm 2014 -2020 để xem xét vai trò và tầm quan trọng của các nhân tố đến chất lượng BCTC tiếp cận theo phương pháp máy 47
học. Kết quả nghiên cứu đã phát hiện các nhân tố khả năng sinh lời của doanh nghiệp, quy mô doanh nghiệp và quy mô của HĐQT có quan hệ thuận chiều đến chất lượng BCTC, trái lại nhân tố về chính sách cổ tức, quyền sở hữu nhà nước và thời gian niêm yết của doanh nghiệp có quan hệ ngược chiều. Nghiên cứu cho thấy khả năng sinh lời của doanh nghiệp, quyền sở hữu nhà nước và quy mô doanh nghiệp là những nhân tố có tầm quan trọng lớn nhất ảnh hưởng đến chất lượng BCTC trên quan điểm kiểm toán. Dựa trên kết quả nghiên cứu, nhóm tác giả đề xuất một số hàm ý chính sách sau: - Các DN muốn thu hút sự quan tâm của nhà đầu tư nên cung cấp thêm thông tin liên quan đến các mô hình đo lường chất lượng BCTC, hổ trợ nhà đầu tư, chuyên gia phân tích có đầy đủ thông tin hơn trong việc ra quyết định. Mặc dù những thông tin cần thiết đến các mô hình đo lường đã được cung cấp thông qua bảng báo cáo tài chính nhưng nhà đầu tư muốn có những thông tin đó phải tốn rất nhiều thời gian để tổng hợp và xử lý nên có thể trong quá trình cung cấp thông tin trên báo cáo thường niên, doanh nghiệp cần bổ sung thêm những thông tin mà các mô hình đo lường cần thiết về chất lượng BCTC. Từ đó nhà đầu tư cảm thấy được quan tâm và tin tưởng hơn khi ra quyết định đầu tư của mình. - Đối với nhân tố khả năng sinh lời của doanh nghiệp có ảnh hưởng thuận chiều đến chất lượng BCTC, cụ thể, các công ty có tỷ lệ lợi nhuận thuần trên tổng tài sản càng cao thì chất lượng BCTC tăng. Có thể nói rằng, kết quả trong nghiên cứu này về mức độ ảnh hưởng của các nhân tố liên quan đến hiệu quả công ty đến chất lượng BCTC cho thấy rằng các công ty niêm yết trên TTCK Việt Nam có khuynh hướng công ty có hiệu quả càng cao thì chất lượng BCTC càng tăng, tuy nhiên các bên liên quan cần cẩn trọng hơn khi sử dụng thông tin trên BCTC của các công ty niêm yết trước khi đưa ra các quyết định kinh tế. TÀI LIỆU THAM KHẢO 1. Abed, S., Al-Attar, A., & Suwaidan, M. (2012). Corporate governance and earnings management: Jordanian evidence. International business research, 5(1), 216-225. doi: doi:10.5539/ibr.v5n1p216 2. Altman, N. S. (1992). An introduction to kernel and nearest-neighbor nonparametric regression. The American Statistician, 46(3), 175-185. 3. Alves, S. (2014). The effect of board independence on the earnings quality: evidence from portuguese listed companies. Australasian Accounting, Business and Finance Journal, 8(3), 23-44. doi: http://dx.doi.org/10.14453/aabfj.v8i3.3 4. Ball, R., & Shivakumar, L. (2005). Earnings quality in UK private firms: comparative loss recognition timeliness. Journal of accounting and economics, 39(1), 83-128. doi: https://doi.org/10.1016/j.jacceco.2004.04.001 48